Starrocks and modern data stack – Telegram
Starrocks and modern data stack
333 subscribers
84 photos
69 links
Будни современного стека для работы с данными с позиции платформенного инженера: starrocks, vertica, hadoop & spark, половинка k8s с щепоткой golang.
Не единым гп и скалой жив рынок :)

@barloc
https://news.1rj.ru/str/dbt_users
Download Telegram
StarRocks 3.3.8

Прошел месяц, а значит выходит новый релиз ветки 3.3. Количество коммитов, конечно, радует, но большая часть обновлений связана с shared-data движком.

А вообще полезно читать release notes - узнал, что в SR есть динамическое партиционирование (оно же partition ttl). Где были мои глаза до этого... В итоге можно будет выкинуть очередную airflow таску на чистку партиций и заменить на внутренний механизм. Ура-ура.

А еще узнал, что можно задать лимиты на количество партиций во время чтения данных из hive или olap таблиц.
👍51👌1
2025

Начало нового года задалось, череда всевозможных аварий расхлебывается до сих пор. И хадуп положили, и вертику, и узнали много нового про идемпотентность наших витрин. Слишком длинные праздники, мне кажется, столько энергии после них приходится утилизировать :)

А между тем CelerData выпустили видео с итогами 24 года и планами на 25. Основная информация на картинке - айсберг захватывает мир и трине придется потесниться. Еще в видео есть несколько кейсов от клиентов, но мне кажется что мы про них уже слышали. А так слайдов мало, но много китайского английского - не под каждое настроение зайдет.
👍3🔥32👏1
Starrocks and modern data stack
Конференции На почту упало письмо от ребят из Онтико о приеме докладов на DevOpsConf 2025. Немножко подумал для приличия день и отправил доклад по внедрению в платформу данных StarRocks. Вполне резонно возникает вопрос - почему эта конференция то? :) Если…
Обновление по конфе - не попал в основной поток докладов, но взяли резервным докладчиком на случай вылета кого-то из основных. И мне кажется, что это двойной выигрыш - ты получаешь все плюшки основного докладчика (билеты, дорога и прочее), но при этом ничего делать надо. Да еще тебе помогут бесплатно с твоим докладом и зарезервируют основной слот на следующую конфу :)

Вообщем там или иначе, если кто будет в апреле на конфе, то можно поболтать.
👍63
Трино против (или вместе)

Только 2 недели отпуска вернули к жизни после этого посленовогоднего безумия - ноутбук не открывал, ютуб по профессии не смотрел, телегу старался не читать.

А между тем поток видео на канале cleverdata стал каким-то безумным - видимо финансовый год подходит к концу и настала пора пиарить успехи. Вот Grab отчитался, как starrocks ускорил построение отчетов в superset по сравнению с trino. И смешно видеть опять историю про написание своего гейтвея к трино - все говорят про это узкое место (и авито говорило при внедрении, и тинек), и вместо стандарта каждый пилит свое. Вообщем примерно в 10 раз быстрее стало - можете сами посмотреть

Для тех, кто не любит видео есть слайды

Из своего опыта тоже набрали кое-что, попозже напишу.
👍3🔥21
Кому бы дать деньги

Что здесь, что в других чатиках постоянно стандартный комментарий на внедрение SR - нет поддержки, нет консалтеров, неведомая фигня, нет в реестре. Внезапно оказалось, что все это есть :)

Если вы ищите кому бы дать денег за ваши умения, то вот пожалуйста: Selena lakehouse. Включено в реестр, готовы снять с вас денег за установку и поддержку (если вы не можете платить напрямую китайцам из celerdata). Интересно почему у ребят так плохо с маркетингом и рекламой, совсем ничего нигде нет.

И да, это пост - не реклама (не видать мне мерседеса еще долго видимо) :)
👍61
Про стриминг (в последний раз)

Пожалуй пора закрывать историю с интеграцией кафки - основные подводные камни изучены, лимиты найдены, но источник лимитов нет :)

Часть первая про ограничение количества задач на загрузку.

Добавляя один поток за другим наконец уперлись в первый лимит - max_routine_load_task_concurrent_num. В starrocks по умолчанию значение этого ключа равно 5, и общее количество задач на загрузку равно значению ключа, умноженному на количество FE нод. В случае дефолта с 3 нодами - совсем не густо потоков запихнуть можно. Почему так? Вот тут есть рекомендации по оптимальной настройке загрузок, основной упор - routine load начнут забирать много ресурсов, которые лучше пустить на полезную работу по расчету запросов. Если вдуматься, то вполне согласен. С другой стороны мониторинг ресурсов кластера показывает, что ни память, ни процессор не утилизированы даже на 5-10% (если мы говорим про время, когда не идут запросы). И еще если посмотреть на аналогичные настройки в doris - там значение ключа выставлено в 1024. То есть вам надо сильно постараться, чтобы упереться в этот самый лимит. И тут либо ребята из апача упоролись в оптимизацию, либо ребята из ср перестраховались. НО, 1024 вы точно никогда не достигните потому что

Часть вторая про UX.

Начиная с 10+ задач routine load администрировать становится очень неудобно. Задачи привязаны исключительно к схеме (если посмотрите в документацию все команды работают только в пределах одной). И, например, при обновлении кластера поймали историю, когда несколько задач остановилось, а часть работает, и пойди найди что где как. В итоге требуется или все загрузки размещать в одной схеме, или бегать повсюду - неудобно. Для себя решили, что мелкие проекты будут загружаться встроенным движком, а основной поток по старинке через самопис на go - благо писать всего ничего, назвал starship :)

На этом историю закрываем, пора переходить к CDC из наших mysql.
👍41
Не свезло

Похоже, что в кои-то веки отказников не появилось и мой резервный доклад на devopsconf25 не реализовался. Печалька и, кстати, уже не звоночек, а прям удар в огромный колокол о развивающемся кризисе в айтишечке.

Итого на руках билет за 100к забесплатно, отель, проезд и мелочек бонусов, плюс доклад, который прошел несколько этапов причесывания с тренерами. Неожиданно узнал, что не смартдатой единой жив мир ДЕ - онтико сделали https://datainternals.ru/2025, который пройдет на неделю или две раньше СД :)

Чоб не попробовать и туда... С другой стороны даже видео доклада уже есть в норм стилистике, может нафиг все эти конфы и ютубчик?...
😭3
Trino to starrocks

Кстати говоря, случайно наткнулся на встроенный конвертер диалекта трино в старрокса. Это к истории от Grab выше, появился в 3.3.9. Молодцы, ребята, стараются.
🔥3
Superset и k8s

Картинка найдена в интернетах по запросу "k8s helm hell" и она крайне точно олицетворяет мое состояние после общения с этим современным стеком, платформами и всем остальным.

А в подробностях, helm чарт для superset от самого superset падает из-за проблем с psycopg2-binary. Причем в самом чарте по умолчанию выбран постгресс. И даже ишью есть. Но не помогает, версии 0.14 все кривые.

Ладно, подумал я. И правда, разве умеют эти программисты писать нормальные чарты для своих сервисов. То ли дело bitnami, эти ребята съели пуд соли и там будет стабильно.

Релиз от 4 апреля падает на этапе разворачивания постгресса - формат директории с данными от 14 постгресса, а запускается 17.

И даже чатгпт не поможет, все надо сжечь...
😱5
Машина времени

Чтобы победить ситуацию с superset и не страдать пересборкой образов под него надо просто откатиться, как в релизе хельм чарта, так и самой версии суперсета. Но как же далеко, неужели за такое количество релизов никто просто не попробовал запустить на чистой инфре?.. Вопрос риторический.

0.14.2 (cамый свежий релиз от 9 апреля 25 года) -> 0.12.11 (13 мая 24 года). Версия суперсета 4.1.2 -> 4.0.1

Ну как так то, аж целый год работы.
3👍2
Прогресс не остановить

Пока одни говорят об отсутствии платной поддержки на просторах РФ или отсутствия примеров внедрения, другие куют железо не покладая рук. Оказалось, что есть вот такие ребята https://starrockspro.ru/, которые так же активно двигают СР на местный рынок. И даже чатик сапорта по ссылке есть в телеге.

Это что, количество тех, кто за деньги готов сапортить бд уже сравнялось с поддержкой гринплама что-ли?.. Про качество не стоит говорить, я помню с чего (вернее с кого) начиналась аренадата :)
👍10
Data Internal X

Зашел вчера на встречу с программным комитетом новой конференции от Онтико - https://datainternals.ru/2025 В этом году она пройдет в первый раз и буквально на пару недель раньше смартдаты, вот и стало интересно чем будет отличаться.

Ощущения остались двойственные. С одной стороны есть поток историй внедрения и прикладного использования, с другой стороны явно видна цель и амбиции программного комитета сделать конфу именно про потрошки баз данных - то есть для разработчиков бд, а не дата инженеров. Их есть на просторах, но наберется ли 400 человек как заявлено - интересный вопрос.

Посмотрим, кто в итоге победит и что победит. Если у вас есть доклады - то прием заканчивается в середине мая. А так за 12500 за онлайн вроде выглдядит нормально с учетом текущего безумия цен на конфы, но какие будут доклады...
4
Начало конца или конец начала

Совсем не такое сообщение ожидаешь увидеть в корпоративном месенджере, на который завязано всё. И вроде смешно, но алерты блин...
😁32😱1
Писать на clickhouse QL в Doris

Немножко выше писал про конвертер диалекта трино в диалект SR. А вот сегодня наше в дорис очень-очень удобную фичу - поддержка кучи диалектов без конвертации - так называемый zero rewriting. Просто включаете в вашей сессии set sql_dialect = "trino" и поехали строчить запросы на том, что знаете. Для всяких продаж и архитекторов звучит божественно, а вот как оно работает на практике - вопрос, для меня, без ответа. Китайцы молодцы, вот это продуктовый подход.
👍6
YDB

Так получилось, что на конференции раньше моего доклада выступал Олег Бондарь с рассказом, как они сделали аналитический движок в свою ydb. Я не пошёл на доклад, а видео его мы сможем увидеть только через полгода. Но в итоге этот доклад спровоцировал вопрос уже на моем докладе - зачем старрокс, если есть ydb? :) Вспоминаю историю про ytsaurus - меня метнуло в сторону масштабов, но Олег в докладе прямо сказал что из бд готова для работы даже в 3 нодовом виде :)

Так почему нет? А потому: https://ydb.tech/docs/ru/concepts/datamodel/table#column-oriented-tables
Ограничений - великое множество, чём-то напоминает кликхауз 5 летней давности. И да, инсертов и делитов нет, впрочем даже переименований таблиц нет. Так что нет, сейчас совсем не конкурент.
Может вырастет, а может нет, время покажет.
👍6
Вопрос про интерактив для грядущего митапа :)
Который год поражаюсь апи Slack - стабильно дурацкая реализация. Появилось аудио и видео, задепрекейтили старых ботов (сильно всем попив крови), но по прежнему отправить в канал файл можно только по его (каналу) идентификатору. И это не смотря на то, что имя канала - уникально среди всех сущностей, включая группы. Вопросов не было бы при наличии простого метода - дай мне идентификатор по имени, но нет. Вот вам метод с пагинацией и лимитами, листайте все объекты пока не найдете свой в списке. Идиотизм же.

А при чем тут Grok? :)

Так как городить vpn очень лень, то доступный платным клиентам телеги @GrokAI является вроде неплохим решением попробовать AI в своей жизни. И для слака у него получается очень неплохо - апи очень стабилен и прост, примеров море. Но стоит шагнуть немножко в сторону, например попросить код для создания скриншота борда из Qlik Sense - становится все плохо вплоть до галюцинаций методов в селениуме. Напоследок решил использовать его для создания документации кода - шляпа, вместо описания фунций получил разбросанные по коды однострочные комментарии.

И захотелось сделать выводы

Чем более закрытый у софта код с дурацкой документацией, тем больше шансов, что вас как программиста с ним работающего не заменят никакие AI :) У Qlik Sense он именно такой, а селениум просто слишком велик и сложен. Уж не говоря о сборке всех кусочков в работающее приложение - создание pdf отчета по дашбордам из клика и отправки его в слак. А вот пользователи популярных открытых|старых|хорошо представленных в интернете вещей пойдут под замену. Помню был когда-то бизнес на создании слак ботов, интересно что там сейчас.
1👍1
Lakehouse meetup #3

А вы заметили как ловко Trino meetup (вот тут последний лежит с номером 2) превратился в Lakehouse meetup с номером 3? Какая интересная манипуляция, после которой взгляд на рынок аналитических движков уменьшается до одного :)

А я вот поделюсь опять видео с канала celerdata - одно из самых просматриваемых (и которое я пропустил :) Ага, оно называется Trino Vs StarRocks - How to Get Data Warehouse Performance on the Lakehouse. Неплохой технический уровень и очень неплохие столкновения лоб в лоб во время конкуренции на продажу платформы в компании с большоооой датой. Основными техническими преимуществами названы SIMD и крутой кеш. И кстати этот самый кеш является закрытой частью в starrocks, его нет в гитхибе.

Но вообще я далек от этой истории и до сих пор не понимаю, зачем компаниям уровня Азбука вкуса или Лемана про влезать в трино, айсберг и компанию. Гибридные движки, как это умеет starrocks или greenplum с pxf гораздо выгоднее. А уж на том количестве данных...
👌2🐳2