Кому бы дать деньги
Что здесь, что в других чатиках постоянно стандартный комментарий на внедрение SR - нет поддержки, нет консалтеров, неведомая фигня, нет в реестре. Внезапно оказалось, что все это есть :)
Если вы ищите кому бы дать денег за ваши умения, то вот пожалуйста: Selena lakehouse. Включено в реестр, готовы снять с вас денег за установку и поддержку (если вы не можете платить напрямую китайцам из celerdata). Интересно почему у ребят так плохо с маркетингом и рекламой, совсем ничего нигде нет.
И да, это пост - не реклама (не видать мне мерседеса еще долго видимо) :)
Что здесь, что в других чатиках постоянно стандартный комментарий на внедрение SR - нет поддержки, нет консалтеров, неведомая фигня, нет в реестре. Внезапно оказалось, что все это есть :)
Если вы ищите кому бы дать денег за ваши умения, то вот пожалуйста: Selena lakehouse. Включено в реестр, готовы снять с вас денег за установку и поддержку (если вы не можете платить напрямую китайцам из celerdata). Интересно почему у ребят так плохо с маркетингом и рекламой, совсем ничего нигде нет.
И да, это пост - не реклама (не видать мне мерседеса еще долго видимо) :)
👍6❤1
Про стриминг (в последний раз)
Пожалуй пора закрывать историю с интеграцией кафки - основные подводные камни изучены, лимиты найдены, но источник лимитов нет :)
Часть первая про ограничение количества задач на загрузку.
Добавляя один поток за другим наконец уперлись в первый лимит - max_routine_load_task_concurrent_num. В starrocks по умолчанию значение этого ключа равно 5, и общее количество задач на загрузку равно значению ключа, умноженному на количество FE нод. В случае дефолта с 3 нодами - совсем не густо потоков запихнуть можно. Почему так? Вот тут есть рекомендации по оптимальной настройке загрузок, основной упор - routine load начнут забирать много ресурсов, которые лучше пустить на полезную работу по расчету запросов. Если вдуматься, то вполне согласен. С другой стороны мониторинг ресурсов кластера показывает, что ни память, ни процессор не утилизированы даже на 5-10% (если мы говорим про время, когда не идут запросы). И еще если посмотреть на аналогичные настройки в doris - там значение ключа выставлено в 1024. То есть вам надо сильно постараться, чтобы упереться в этот самый лимит. И тут либо ребята из апача упоролись в оптимизацию, либо ребята из ср перестраховались. НО, 1024 вы точно никогда не достигните потому что
Часть вторая про UX.
Начиная с 10+ задач routine load администрировать становится очень неудобно. Задачи привязаны исключительно к схеме (если посмотрите в документацию все команды работают только в пределах одной). И, например, при обновлении кластера поймали историю, когда несколько задач остановилось, а часть работает, и пойди найди что где как. В итоге требуется или все загрузки размещать в одной схеме, или бегать повсюду - неудобно. Для себя решили, что мелкие проекты будут загружаться встроенным движком, а основной поток по старинке через самопис на go - благо писать всего ничего, назвал starship :)
На этом историю закрываем, пора переходить к CDC из наших mysql.
Пожалуй пора закрывать историю с интеграцией кафки - основные подводные камни изучены, лимиты найдены, но источник лимитов нет :)
Часть первая про ограничение количества задач на загрузку.
Добавляя один поток за другим наконец уперлись в первый лимит - max_routine_load_task_concurrent_num. В starrocks по умолчанию значение этого ключа равно 5, и общее количество задач на загрузку равно значению ключа, умноженному на количество FE нод. В случае дефолта с 3 нодами - совсем не густо потоков запихнуть можно. Почему так? Вот тут есть рекомендации по оптимальной настройке загрузок, основной упор - routine load начнут забирать много ресурсов, которые лучше пустить на полезную работу по расчету запросов. Если вдуматься, то вполне согласен. С другой стороны мониторинг ресурсов кластера показывает, что ни память, ни процессор не утилизированы даже на 5-10% (если мы говорим про время, когда не идут запросы). И еще если посмотреть на аналогичные настройки в doris - там значение ключа выставлено в 1024. То есть вам надо сильно постараться, чтобы упереться в этот самый лимит. И тут либо ребята из апача упоролись в оптимизацию, либо ребята из ср перестраховались. НО, 1024 вы точно никогда не достигните потому что
Часть вторая про UX.
Начиная с 10+ задач routine load администрировать становится очень неудобно. Задачи привязаны исключительно к схеме (если посмотрите в документацию все команды работают только в пределах одной). И, например, при обновлении кластера поймали историю, когда несколько задач остановилось, а часть работает, и пойди найди что где как. В итоге требуется или все загрузки размещать в одной схеме, или бегать повсюду - неудобно. Для себя решили, что мелкие проекты будут загружаться встроенным движком, а основной поток по старинке через самопис на go - благо писать всего ничего, назвал starship :)
На этом историю закрываем, пора переходить к CDC из наших mysql.
👍4❤1
Не свезло
Похоже, что в кои-то веки отказников не появилось и мой резервный доклад на devopsconf25 не реализовался. Печалька и, кстати, уже не звоночек, а прям удар в огромный колокол о развивающемся кризисе в айтишечке.
Итого на руках билет за 100к забесплатно, отель, проезд и мелочек бонусов, плюс доклад, который прошел несколько этапов причесывания с тренерами. Неожиданно узнал, что не смартдатой единой жив мир ДЕ - онтико сделали https://datainternals.ru/2025, который пройдет на неделю или две раньше СД :)
Чоб не попробовать и туда... С другой стороны даже видео доклада уже есть в норм стилистике, может нафиг все эти конфы и ютубчик?...
Похоже, что в кои-то веки отказников не появилось и мой резервный доклад на devopsconf25 не реализовался. Печалька и, кстати, уже не звоночек, а прям удар в огромный колокол о развивающемся кризисе в айтишечке.
Итого на руках билет за 100к забесплатно, отель, проезд и мелочек бонусов, плюс доклад, который прошел несколько этапов причесывания с тренерами. Неожиданно узнал, что не смартдатой единой жив мир ДЕ - онтико сделали https://datainternals.ru/2025, который пройдет на неделю или две раньше СД :)
Чоб не попробовать и туда... С другой стороны даже видео доклада уже есть в норм стилистике, может нафиг все эти конфы и ютубчик?...
😭3
Trino to starrocks
Кстати говоря, случайно наткнулся на встроенный конвертер диалекта трино в старрокса. Это к истории от Grab выше, появился в 3.3.9. Молодцы, ребята, стараются.
Кстати говоря, случайно наткнулся на встроенный конвертер диалекта трино в старрокса. Это к истории от Grab выше, появился в 3.3.9. Молодцы, ребята, стараются.
docs.starrocks.io
Translate Trino SQL | StarRocks
From v3.3.9, StarRocks supports translating Trino SQL statements into StarRocks SQL statements.
🔥3
Starrocks and modern data stack
Кому бы дать деньги Что здесь, что в других чатиках постоянно стандартный комментарий на внедрение SR - нет поддержки, нет консалтеров, неведомая фигня, нет в реестре. Внезапно оказалось, что все это есть :) Если вы ищите кому бы дать денег за ваши умения…
Вот откуда ноги растут и куда деньги текут
Очень удивился, когда увидел статью про настройку на сайте dis group. А зря - вот чьё детище селена. Интересно будет подождать успешных проданных кейсов.
Очень удивился, когда увидел статью про настройку на сайте dis group. А зря - вот чьё детище селена. Интересно будет подождать успешных проданных кейсов.
DIS Group
Селена - DIS Group
Селена - решения в области управления данными, бизнес-аналитики | Dis-Group
👍4
А вот нам бы новую БД для аналитиков в платформу приземлить...
Hadoop, clickhouse, k8s и даже greenplum с cassandra — в какой момент набор кубиков на доске архитектора становится платформой данных? В своём докладе расскажу, как наша команда нашла путь не умереть от кучи «модных» технологий. Пример внедрения китайской «серебряной пули» Starrocks покажет, какие вызовы стоят перед современными он-прем аналитическими базами данных и корпоративными платформами.
Спасибо ребятам из Екатеринбурга - там нашлось местечко для доклада, прям как будто меня ждало последнее :) Всегда хотел там побывать.
Hadoop, clickhouse, k8s и даже greenplum с cassandra — в какой момент набор кубиков на доске архитектора становится платформой данных? В своём докладе расскажу, как наша команда нашла путь не умереть от кучи «модных» технологий. Пример внедрения китайской «серебряной пули» Starrocks покажет, какие вызовы стоят перед современными он-прем аналитическими базами данных и корпоративными платформами.
Спасибо ребятам из Екатеринбурга - там нашлось местечко для доклада, прям как будто меня ждало последнее :) Всегда хотел там побывать.
dump-ekb.ru
Программа 2025: темы и анонсы
Доклады, тезисы и спикеры конференции DUMP EKB
🔥10👍4❤2
Superset и k8s
Картинка найдена в интернетах по запросу "k8s helm hell" и она крайне точно олицетворяет мое состояние после общения с этим современным стеком, платформами и всем остальным.
А в подробностях, helm чарт для superset от самого superset падает из-за проблем с psycopg2-binary. Причем в самом чарте по умолчанию выбран постгресс. И даже ишью есть. Но не помогает, версии 0.14 все кривые.
Ладно, подумал я. И правда, разве умеют эти программисты писать нормальные чарты для своих сервисов. То ли дело bitnami, эти ребята съели пуд соли и там будет стабильно.
Релиз от 4 апреля падает на этапе разворачивания постгресса - формат директории с данными от 14 постгресса, а запускается 17.
И даже чатгпт не поможет, все надо сжечь...
Картинка найдена в интернетах по запросу "k8s helm hell" и она крайне точно олицетворяет мое состояние после общения с этим современным стеком, платформами и всем остальным.
А в подробностях, helm чарт для superset от самого superset падает из-за проблем с psycopg2-binary. Причем в самом чарте по умолчанию выбран постгресс. И даже ишью есть. Но не помогает, версии 0.14 все кривые.
Ладно, подумал я. И правда, разве умеют эти программисты писать нормальные чарты для своих сервисов. То ли дело bitnami, эти ребята съели пуд соли и там будет стабильно.
Релиз от 4 апреля падает на этапе разворачивания постгресса - формат директории с данными от 14 постгресса, а запускается 17.
И даже чатгпт не поможет, все надо сжечь...
😱5
Машина времени
Чтобы победить ситуацию с superset и не страдать пересборкой образов под него надо просто откатиться, как в релизе хельм чарта, так и самой версии суперсета. Но как же далеко, неужели за такое количество релизов никто просто не попробовал запустить на чистой инфре?.. Вопрос риторический.
0.14.2 (cамый свежий релиз от 9 апреля 25 года) -> 0.12.11 (13 мая 24 года). Версия суперсета 4.1.2 -> 4.0.1
Ну как так то, аж целый год работы.
Чтобы победить ситуацию с superset и не страдать пересборкой образов под него надо просто откатиться, как в релизе хельм чарта, так и самой версии суперсета. Но как же далеко, неужели за такое количество релизов никто просто не попробовал запустить на чистой инфре?.. Вопрос риторический.
0.14.2 (cамый свежий релиз от 9 апреля 25 года) -> 0.12.11 (13 мая 24 года). Версия суперсета 4.1.2 -> 4.0.1
Ну как так то, аж целый год работы.
❤3👍2
Прогресс не остановить
Пока одни говорят об отсутствии платной поддержки на просторах РФ или отсутствия примеров внедрения, другие куют железо не покладая рук. Оказалось, что есть вот такие ребята https://starrockspro.ru/, которые так же активно двигают СР на местный рынок. И даже чатик сапорта по ссылке есть в телеге.
Это что, количество тех, кто за деньги готов сапортить бд уже сравнялось с поддержкой гринплама что-ли?.. Про качество не стоит говорить, я помню с чего (вернее с кого) начиналась аренадата :)
Пока одни говорят об отсутствии платной поддержки на просторах РФ или отсутствия примеров внедрения, другие куют железо не покладая рук. Оказалось, что есть вот такие ребята https://starrockspro.ru/, которые так же активно двигают СР на местный рынок. И даже чатик сапорта по ссылке есть в телеге.
Это что, количество тех, кто за деньги готов сапортить бд уже сравнялось с поддержкой гринплама что-ли?.. Про качество не стоит говорить, я помню с чего (вернее с кого) начиналась аренадата :)
👍10
Data Internal X
Зашел вчера на встречу с программным комитетом новой конференции от Онтико - https://datainternals.ru/2025 В этом году она пройдет в первый раз и буквально на пару недель раньше смартдаты, вот и стало интересно чем будет отличаться.
Ощущения остались двойственные. С одной стороны есть поток историй внедрения и прикладного использования, с другой стороны явно видна цель и амбиции программного комитета сделать конфу именно про потрошки баз данных - то есть для разработчиков бд, а не дата инженеров. Их есть на просторах, но наберется ли 400 человек как заявлено - интересный вопрос.
Посмотрим, кто в итоге победит и что победит. Если у вас есть доклады - то прием заканчивается в середине мая. А так за 12500 за онлайн вроде выглдядит нормально с учетом текущего безумия цен на конфы, но какие будут доклады...
Зашел вчера на встречу с программным комитетом новой конференции от Онтико - https://datainternals.ru/2025 В этом году она пройдет в первый раз и буквально на пару недель раньше смартдаты, вот и стало интересно чем будет отличаться.
Ощущения остались двойственные. С одной стороны есть поток историй внедрения и прикладного использования, с другой стороны явно видна цель и амбиции программного комитета сделать конфу именно про потрошки баз данных - то есть для разработчиков бд, а не дата инженеров. Их есть на просторах, но наберется ли 400 человек как заявлено - интересный вопрос.
Посмотрим, кто в итоге победит и что победит. Если у вас есть доклады - то прием заканчивается в середине мая. А так за 12500 за онлайн вроде выглдядит нормально с учетом текущего безумия цен на конфы, но какие будут доклады...
❤4
Писать на clickhouse QL в Doris
Немножко выше писал про конвертер диалекта трино в диалект SR. А вот сегодня наше в дорис очень-очень удобную фичу - поддержка кучи диалектов без конвертации - так называемый zero rewriting. Просто включаете в вашей сессии
Немножко выше писал про конвертер диалекта трино в диалект SR. А вот сегодня наше в дорис очень-очень удобную фичу - поддержка кучи диалектов без конвертации - так называемый zero rewriting. Просто включаете в вашей сессии
set sql_dialect = "trino" и поехали строчить запросы на том, что знаете. Для всяких продаж и архитекторов звучит божественно, а вот как оно работает на практике - вопрос, для меня, без ответа. Китайцы молодцы, вот это продуктовый подход.👍6
YDB
Так получилось, что на конференции раньше моего доклада выступал Олег Бондарь с рассказом, как они сделали аналитический движок в свою ydb. Я не пошёл на доклад, а видео его мы сможем увидеть только через полгода. Но в итоге этот доклад спровоцировал вопрос уже на моем докладе - зачем старрокс, если есть ydb? :) Вспоминаю историю про ytsaurus - меня метнуло в сторону масштабов, но Олег в докладе прямо сказал что из бд готова для работы даже в 3 нодовом виде :)
Так почему нет? А потому: https://ydb.tech/docs/ru/concepts/datamodel/table#column-oriented-tables
Ограничений - великое множество, чём-то напоминает кликхауз 5 летней давности. И да, инсертов и делитов нет, впрочем даже переименований таблиц нет. Так что нет, сейчас совсем не конкурент.
Может вырастет, а может нет, время покажет.
Так получилось, что на конференции раньше моего доклада выступал Олег Бондарь с рассказом, как они сделали аналитический движок в свою ydb. Я не пошёл на доклад, а видео его мы сможем увидеть только через полгода. Но в итоге этот доклад спровоцировал вопрос уже на моем докладе - зачем старрокс, если есть ydb? :) Вспоминаю историю про ytsaurus - меня метнуло в сторону масштабов, но Олег в докладе прямо сказал что из бд готова для работы даже в 3 нодовом виде :)
Так почему нет? А потому: https://ydb.tech/docs/ru/concepts/datamodel/table#column-oriented-tables
Ограничений - великое множество, чём-то напоминает кликхауз 5 летней давности. И да, инсертов и делитов нет, впрочем даже переименований таблиц нет. Так что нет, сейчас совсем не конкурент.
Может вырастет, а может нет, время покажет.
👍6
Forwarded from Stanislav Lysikov
Всем привет
Готовлю митап по старроксу и возник у меня вопрос про интерактив. Как было бы вам удобно задавать вопросы или коммуницировать с спикером
Готовлю митап по старроксу и возник у меня вопрос про интерактив. Как было бы вам удобно задавать вопросы или коммуницировать с спикером
Anonymous Poll
72%
стандартно в конце доклада текстом вопросы через чат или телегу в заданные 10 минут
15%
В конце всех докладов (около часа) текстом через чат или телегу
31%
В конце всех докладов подключиться в зум и пообщаться голосом на интересные темы
8%
Вопросы не нужны, просмотра доклада достаточно
Который год поражаюсь апи Slack - стабильно дурацкая реализация. Появилось аудио и видео, задепрекейтили старых ботов (сильно всем попив крови), но по прежнему отправить в канал файл можно только по его (каналу) идентификатору. И это не смотря на то, что имя канала - уникально среди всех сущностей, включая группы. Вопросов не было бы при наличии простого метода - дай мне идентификатор по имени, но нет. Вот вам метод с пагинацией и лимитами, листайте все объекты пока не найдете свой в списке. Идиотизм же.
А при чем тут Grok? :)
Так как городить vpn очень лень, то доступный платным клиентам телеги @GrokAI является вроде неплохим решением попробовать AI в своей жизни. И для слака у него получается очень неплохо - апи очень стабилен и прост, примеров море. Но стоит шагнуть немножко в сторону, например попросить код для создания скриншота борда из Qlik Sense - становится все плохо вплоть до галюцинаций методов в селениуме. Напоследок решил использовать его для создания документации кода - шляпа, вместо описания фунций получил разбросанные по коды однострочные комментарии.
И захотелось сделать выводы
Чем более закрытый у софта код с дурацкой документацией, тем больше шансов, что вас как программиста с ним работающего не заменят никакие AI :) У Qlik Sense он именно такой, а селениум просто слишком велик и сложен. Уж не говоря о сборке всех кусочков в работающее приложение - создание pdf отчета по дашбордам из клика и отправки его в слак. А вот пользователи популярных открытых|старых|хорошо представленных в интернете вещей пойдут под замену. Помню был когда-то бизнес на создании слак ботов, интересно что там сейчас.
А при чем тут Grok? :)
Так как городить vpn очень лень, то доступный платным клиентам телеги @GrokAI является вроде неплохим решением попробовать AI в своей жизни. И для слака у него получается очень неплохо - апи очень стабилен и прост, примеров море. Но стоит шагнуть немножко в сторону, например попросить код для создания скриншота борда из Qlik Sense - становится все плохо вплоть до галюцинаций методов в селениуме. Напоследок решил использовать его для создания документации кода - шляпа, вместо описания фунций получил разбросанные по коды однострочные комментарии.
И захотелось сделать выводы
Чем более закрытый у софта код с дурацкой документацией, тем больше шансов, что вас как программиста с ним работающего не заменят никакие AI :) У Qlik Sense он именно такой, а селениум просто слишком велик и сложен. Уж не говоря о сборке всех кусочков в работающее приложение - создание pdf отчета по дашбордам из клика и отправки его в слак. А вот пользователи популярных открытых|старых|хорошо представленных в интернете вещей пойдут под замену. Помню был когда-то бизнес на создании слак ботов, интересно что там сейчас.
❤1👍1
Lakehouse meetup #3
А вы заметили как ловко Trino meetup (вот тут последний лежит с номером 2) превратился в Lakehouse meetup с номером 3? Какая интересная манипуляция, после которой взгляд на рынок аналитических движков уменьшается до одного :)
А я вот поделюсь опять видео с канала celerdata - одно из самых просматриваемых (и которое я пропустил :) Ага, оно называется Trino Vs StarRocks - How to Get Data Warehouse Performance on the Lakehouse. Неплохой технический уровень и очень неплохие столкновения лоб в лоб во время конкуренции на продажу платформы в компании с большоооой датой. Основными техническими преимуществами названы SIMD и крутой кеш. И кстати этот самый кеш является закрытой частью в starrocks, его нет в гитхибе.
Но вообще я далек от этой истории и до сих пор не понимаю, зачем компаниям уровня Азбука вкуса или Лемана про влезать в трино, айсберг и компанию. Гибридные движки, как это умеет starrocks или greenplum с pxf гораздо выгоднее. А уж на том количестве данных...
А вы заметили как ловко Trino meetup (вот тут последний лежит с номером 2) превратился в Lakehouse meetup с номером 3? Какая интересная манипуляция, после которой взгляд на рынок аналитических движков уменьшается до одного :)
А я вот поделюсь опять видео с канала celerdata - одно из самых просматриваемых (и которое я пропустил :) Ага, оно называется Trino Vs StarRocks - How to Get Data Warehouse Performance on the Lakehouse. Неплохой технический уровень и очень неплохие столкновения лоб в лоб во время конкуренции на продажу платформы в компании с большоооой датой. Основными техническими преимуществами названы SIMD и крутой кеш. И кстати этот самый кеш является закрытой частью в starrocks, его нет в гитхибе.
Но вообще я далек от этой истории и до сих пор не понимаю, зачем компаниям уровня Азбука вкуса или Лемана про влезать в трино, айсберг и компанию. Гибридные движки, как это умеет starrocks или greenplum с pxf гораздо выгоднее. А уж на том количестве данных...
👌2🐳2
Apache Hadoop. Рассвет или закат opensource. Как живет онпрем в 24 году
Воспользуюсь еще раз второй частью названия канала про modern data stack и скину доклад про hadoop :) Год назад в первый раз выступил на сцене вместо привычного ютубчика, и это было прикольно (спасибо, Лестат). Решил вспомнить корни при подготовке митапа по SR, так сказать. И на самом деле часто внедрения - это веселые походы под пиратским флагом, потому что так больше жить нельзя.
Серьезные люди тут же придут и начнут бухтеть про кто будет поддерживать, когда ты уволишься и т.д. Лет 10 назад было как - ты приходишь на работу админом, а там хадуп. Ну ладно, хадуп так хадуп, поехали. И сейчас без черного пояса по кунг...керберосу и знания ATSv2 (и его проблем) никуда тебя не возьмут.
PS забавно, что даже на канале Лестата видно, насколько кликхауз популярнее всего остального. А уж по отношению к хадупу ровно на порядок.
Воспользуюсь еще раз второй частью названия канала про modern data stack и скину доклад про hadoop :) Год назад в первый раз выступил на сцене вместо привычного ютубчика, и это было прикольно (спасибо, Лестат). Решил вспомнить корни при подготовке митапа по SR, так сказать. И на самом деле часто внедрения - это веселые походы под пиратским флагом, потому что так больше жить нельзя.
Серьезные люди тут же придут и начнут бухтеть про кто будет поддерживать, когда ты уволишься и т.д. Лет 10 назад было как - ты приходишь на работу админом, а там хадуп. Ну ладно, хадуп так хадуп, поехали. И сейчас без черного пояса по кунг...керберосу и знания ATSv2 (и его проблем) никуда тебя не возьмут.
PS забавно, что даже на канале Лестата видно, насколько кликхауз популярнее всего остального. А уж по отношению к хадупу ровно на порядок.
YouTube
Рассвет или закат opensource. Как живет онпрем в 24 году
Монополизация рынка онпрем инсталяций со стороны клаудеры и закрытие репозитариев бинарных сборок и плейбуков установки остановила внедрение новых и обновление старых кластеров хадупа и в больших, и в малых компаниях
Малые вендоры все еще не кажутся надежными…
Малые вендоры все еще не кажутся надежными…
👍2
Deepseek v3
Решение о замене Trino (ранее PrestoSQL) на StarRocks зависит от конкретных требований вашей аналитической нагрузки. Оба инструмента имеют свои сильные и слабые стороны.
### 1. Когда StarRocks лучше Trino?
StarRocks (ранее Doris) — это высокопроизводительная MPP-СУДБ, оптимизированная для аналитических запросов с низкой задержкой.
✅ Выберите StarRocks, если вам нужно:
- Высокая производительность на сложных агрегациях (OLAP-запросы с JOIN, GROUP BY, Window Functions).
- Поддержка реального времени (вставки данных с низкой задержкой, near real-time аналитика).
- Горизонтальная масштабируемость (автоматическое шардирование и репликация).
- Совместимость с MySQL-протоколом (удобно для BI-инструментов, таких как Tableau, Superset).
- Встроенные оптимизации под колоночные форматы (Apache Parquet, ORC, Iceberg).
- Поддержка материализованных представлений (ускорение запросов без переписывания кода).
### 2. Когда Trino (Presto) лучше StarRocks?
Trino — это распределенный SQL-движок для выполнения запросов к различным источникам данных.
✅ Оставьте Trino, если вам важно:
- Федеративные запросы (объединение данных из разных источников: Hive, Kafka, PostgreSQL, MongoDB и др.).
- Гибкость и поддержка множества коннекторов.
- Запросы к данным в S3 / HDFS без ETL (Trino отлично работает с Iceberg, Delta Lake, Hudi).
- Ad-hoc аналитика (быстрые exploratory запросы без предварительной загрузки данных в СУБД).
### 3. Производительность
- StarRocks обычно быстрее на сложных аналитических запросах (особенно с JOIN и агрегациями) благодаря своей MPP-архитектуре и векторному исполнению.
- Trino может проигрывать в скорости на больших JOIN, но выигрывает в гибкости.
### 4. Экосистема и интеграции
- StarRocks лучше интегрирован с Kafka, Flink, Spark (поддержка stream-загрузки).
- Trino имеет более богатую экосистему коннекторов (подходит для data lake и data mesh).
### Вывод: стоит ли переходить?
- Да, если у вас OLAP-нагрузка (аналитика, дашборды, агрегации) и нужна максимальная скорость.
- Нет, если важна федерация данных или работа с разнородными источниками.
Можно рассмотреть гибридный подход:
- StarRocks — для горячих данных и быстрых запросов.
- Trino — для федеративных запросов и работы с data lake.
Если у вас есть конкретные требования (объем данных, типы запросов, SLA), можно дать более точную рекомендацию.
Аналитика уровня AI. Как они это делают...
Стоит ли менять trino на starrocks?
Решение о замене Trino (ранее PrestoSQL) на StarRocks зависит от конкретных требований вашей аналитической нагрузки. Оба инструмента имеют свои сильные и слабые стороны.
### 1. Когда StarRocks лучше Trino?
StarRocks (ранее Doris) — это высокопроизводительная MPP-СУДБ, оптимизированная для аналитических запросов с низкой задержкой.
✅ Выберите StarRocks, если вам нужно:
- Высокая производительность на сложных агрегациях (OLAP-запросы с JOIN, GROUP BY, Window Functions).
- Поддержка реального времени (вставки данных с низкой задержкой, near real-time аналитика).
- Горизонтальная масштабируемость (автоматическое шардирование и репликация).
- Совместимость с MySQL-протоколом (удобно для BI-инструментов, таких как Tableau, Superset).
- Встроенные оптимизации под колоночные форматы (Apache Parquet, ORC, Iceberg).
- Поддержка материализованных представлений (ускорение запросов без переписывания кода).
### 2. Когда Trino (Presto) лучше StarRocks?
Trino — это распределенный SQL-движок для выполнения запросов к различным источникам данных.
✅ Оставьте Trino, если вам важно:
- Федеративные запросы (объединение данных из разных источников: Hive, Kafka, PostgreSQL, MongoDB и др.).
- Гибкость и поддержка множества коннекторов.
- Запросы к данным в S3 / HDFS без ETL (Trino отлично работает с Iceberg, Delta Lake, Hudi).
- Ad-hoc аналитика (быстрые exploratory запросы без предварительной загрузки данных в СУБД).
### 3. Производительность
- StarRocks обычно быстрее на сложных аналитических запросах (особенно с JOIN и агрегациями) благодаря своей MPP-архитектуре и векторному исполнению.
- Trino может проигрывать в скорости на больших JOIN, но выигрывает в гибкости.
### 4. Экосистема и интеграции
- StarRocks лучше интегрирован с Kafka, Flink, Spark (поддержка stream-загрузки).
- Trino имеет более богатую экосистему коннекторов (подходит для data lake и data mesh).
### Вывод: стоит ли переходить?
- Да, если у вас OLAP-нагрузка (аналитика, дашборды, агрегации) и нужна максимальная скорость.
- Нет, если важна федерация данных или работа с разнородными источниками.
Можно рассмотреть гибридный подход:
- StarRocks — для горячих данных и быстрых запросов.
- Trino — для федеративных запросов и работы с data lake.
Если у вас есть конкретные требования (объем данных, типы запросов, SLA), можно дать более точную рекомендацию.
Аналитика уровня AI. Как они это делают...
👍5🔥5
Рейтинги подъехали
Есть такой сайт - https://db-engines.com, который на основе трендов в поиске, количестве вакансий и вопросам на СО выстраивает рейтинги для большого количества баз данных. Конечно, сперва интересна методология ранжирования - она здесь, а потом соответствие бд группам, в которые они размещены. Clickhouse в ряду реляционок, вместе с trino и остальными. Ну что ж...
Расшифровка сверху вниз:
* apache hive
* apache spark
* clickhouse (красная ракета)
* trino
* starrocks
* apache doris
Есть подозрение, что фиговый STS вместо kyuubi сильно подрывает позиции для спарка в рейтинге. А так бы давно хайв отправился на замену. Трино давно вышли на плато и не смотря на раскрутку хайпа стоят. СР и дорис - вообще незаметны на фоне грандов.
Кстати, этот график прямо противоречит, например, с просмотрами видео на канале Лестата, который скидывал выше.
Есть такой сайт - https://db-engines.com, который на основе трендов в поиске, количестве вакансий и вопросам на СО выстраивает рейтинги для большого количества баз данных. Конечно, сперва интересна методология ранжирования - она здесь, а потом соответствие бд группам, в которые они размещены. Clickhouse в ряду реляционок, вместе с trino и остальными. Ну что ж...
Расшифровка сверху вниз:
* apache hive
* apache spark
* clickhouse (красная ракета)
* trino
* starrocks
* apache doris
Есть подозрение, что фиговый STS вместо kyuubi сильно подрывает позиции для спарка в рейтинге. А так бы давно хайв отправился на замену. Трино давно вышли на плато и не смотря на раскрутку хайпа стоят. СР и дорис - вообще незаметны на фоне грандов.
Кстати, этот график прямо противоречит, например, с просмотрами видео на канале Лестата, который скидывал выше.
👍4❤2🔥1
Сообщество StarRocks/Doris
Есть у меня успешный опыт и привычка - когда мне не хватает знаний, идти за ними в сообщество. Но часто для каких-то штук его нет. Так когда я создал группу по найфаю в телеге, в которой сейчас больше 2000 человек, и так появилась группа по дбт, которая приближается к этой же цифре.
Делиться знаниями - это всегда хорошо, лучше обходить грабли, на которые кто-то уже успел наступить. Да и накопление знаний в одиночку - это процесс крайне медленный.
У меня через личку стало проходить много интересного по СР, которые было бы лучше выносить на публику, да и на какие то вещи нет ответа с моей стороны из-за узости профиля.
Да, это такая длинная подводка к новой группе: https://news.1rj.ru/str/starrocks_users. И именно для развития этой новой группы и будет проведен митап по StarRocks 19 июня. Кому интересно - присоединяйтесь :)
Есть у меня успешный опыт и привычка - когда мне не хватает знаний, идти за ними в сообщество. Но часто для каких-то штук его нет. Так когда я создал группу по найфаю в телеге, в которой сейчас больше 2000 человек, и так появилась группа по дбт, которая приближается к этой же цифре.
Делиться знаниями - это всегда хорошо, лучше обходить грабли, на которые кто-то уже успел наступить. Да и накопление знаний в одиночку - это процесс крайне медленный.
У меня через личку стало проходить много интересного по СР, которые было бы лучше выносить на публику, да и на какие то вещи нет ответа с моей стороны из-за узости профиля.
Да, это такая длинная подводка к новой группе: https://news.1rj.ru/str/starrocks_users. И именно для развития этой новой группы и будет проведен митап по StarRocks 19 июня. Кому интересно - присоединяйтесь :)
👍5🔥3❤2