NEW BOT Телеграм, страница

StarRocks and modern data stack

Apache Hadoop. Рассвет или закат opensource. Как живет онпрем в 24 году

Воспользуюсь еще раз второй частью названия канала про modern data stack и скину доклад про hadoop :) Год назад в первый раз выступил на сцене вместо привычного ютубчика, и это было прикольно (спасибо, Лестат). Решил вспомнить корни при подготовке митапа по SR, так сказать. И на самом деле часто внедрения - это веселые походы под пиратским флагом, потому что так больше жить нельзя.

Серьезные люди тут же придут и начнут бухтеть про кто будет поддерживать, когда ты уволишься и т.д. Лет 10 назад было как - ты приходишь на работу админом, а там хадуп. Ну ладно, хадуп так хадуп, поехали. И сейчас без черного пояса по кунг...керберосу и знания ATSv2 (и его проблем) никуда тебя не возьмут.

PS забавно, что даже на канале Лестата видно, насколько кликхауз популярнее всего остального. А уж по отношению к хадупу ровно на порядок.

YouTube

Рассвет или закат opensource. Как живет онпрем в 24 году

Монополизация рынка онпрем инсталяций со стороны клаудеры и закрытие репозитариев бинарных сборок и плейбуков установки остановила внедрение новых и обновление старых кластеров хадупа и в больших, и в малых компаниях

Малые вендоры все еще не кажутся надежными…

👍2

281 views18:13

StarRocks and modern data stack

Deepseek v3

Стоит ли менять trino на starrocks?

Решение о замене Trino (ранее PrestoSQL) на StarRocks зависит от конкретных требований вашей аналитической нагрузки. Оба инструмента имеют свои сильные и слабые стороны.

### 1. Когда StarRocks лучше Trino?
StarRocks (ранее Doris) — это высокопроизводительная MPP-СУДБ, оптимизированная для аналитических запросов с низкой задержкой.

✅ Выберите StarRocks, если вам нужно:
- Высокая производительность на сложных агрегациях (OLAP-запросы с JOIN, GROUP BY, Window Functions).
- Поддержка реального времени (вставки данных с низкой задержкой, near real-time аналитика).
- Горизонтальная масштабируемость (автоматическое шардирование и репликация).
- Совместимость с MySQL-протоколом (удобно для BI-инструментов, таких как Tableau, Superset).
- Встроенные оптимизации под колоночные форматы (Apache Parquet, ORC, Iceberg).
- Поддержка материализованных представлений (ускорение запросов без переписывания кода).

### 2. Когда Trino (Presto) лучше StarRocks?
Trino — это распределенный SQL-движок для выполнения запросов к различным источникам данных.

✅ Оставьте Trino, если вам важно:
- Федеративные запросы (объединение данных из разных источников: Hive, Kafka, PostgreSQL, MongoDB и др.).
- Гибкость и поддержка множества коннекторов.
- Запросы к данным в S3 / HDFS без ETL (Trino отлично работает с Iceberg, Delta Lake, Hudi).
- Ad-hoc аналитика (быстрые exploratory запросы без предварительной загрузки данных в СУБД).

### 3. Производительность
- StarRocks обычно быстрее на сложных аналитических запросах (особенно с JOIN и агрегациями) благодаря своей MPP-архитектуре и векторному исполнению.
- Trino может проигрывать в скорости на больших JOIN, но выигрывает в гибкости.

### 4. Экосистема и интеграции
- StarRocks лучше интегрирован с Kafka, Flink, Spark (поддержка stream-загрузки).
- Trino имеет более богатую экосистему коннекторов (подходит для data lake и data mesh).

### Вывод: стоит ли переходить?
- Да, если у вас OLAP-нагрузка (аналитика, дашборды, агрегации) и нужна максимальная скорость.
- Нет, если важна федерация данных или работа с разнородными источниками.

Можно рассмотреть гибридный подход:
- StarRocks — для горячих данных и быстрых запросов.
- Trino — для федеративных запросов и работы с data lake.

Если у вас есть конкретные требования (объем данных, типы запросов, SLA), можно дать более точную рекомендацию.

Аналитика уровня AI. Как они это делают...

👍5🔥5

328 views18:18

StarRocks and modern data stack

Рейтинги подъехали

Есть такой сайт - https://db-engines.com, который на основе трендов в поиске, количестве вакансий и вопросам на СО выстраивает рейтинги для большого количества баз данных. Конечно, сперва интересна методология ранжирования - она здесь, а потом соответствие бд группам, в которые они размещены. Clickhouse в ряду реляционок, вместе с trino и остальными. Ну что ж...

Расшифровка сверху вниз:
* apache hive
* apache spark
* clickhouse (красная ракета)
* trino
* starrocks
* apache doris

Есть подозрение, что фиговый STS вместо kyuubi сильно подрывает позиции для спарка в рейтинге. А так бы давно хайв отправился на замену. Трино давно вышли на плато и не смотря на раскрутку хайпа стоят. СР и дорис - вообще незаметны на фоне грандов.

Кстати, этот график прямо противоречит, например, с просмотрами видео на канале Лестата, который скидывал выше.

👍4❤2🔥1

381 views07:58

StarRocks and modern data stack

Сообщество StarRocks/Doris

Есть у меня успешный опыт и привычка - когда мне не хватает знаний, идти за ними в сообщество. Но часто для каких-то штук его нет. Так когда я создал группу по найфаю в телеге, в которой сейчас больше 2000 человек, и так появилась группа по дбт, которая приближается к этой же цифре.

Делиться знаниями - это всегда хорошо, лучше обходить грабли, на которые кто-то уже успел наступить. Да и накопление знаний в одиночку - это процесс крайне медленный.

У меня через личку стало проходить много интересного по СР, которые было бы лучше выносить на публику, да и на какие то вещи нет ответа с моей стороны из-за узости профиля.

Да, это такая длинная подводка к новой группе: https://news.1rj.ru/str/starrocks_users. И именно для развития этой новой группы и будет проведен митап по StarRocks 19 июня. Кому интересно - присоединяйтесь :)

👍5🔥3❤2

566 viewsedited 18:49

StarRocks and modern data stack

dbt starrocks

2 недели назад на конфе я показывал вот такой слайд, учитывая заброшенность репы адаптера на гитхабе. Но оказалось, что надо постоянно проверять новости от кипящих проектов - 20 марта выпустили сразу релиз 1.9.0. Для новой ветки старрокса 3.4 включили поддержку микробатчей всех видов и вообще почти всего, до чего смогли дотянуться. Единственное, что осталось - кафку затянуть в дбт (правда у меня вопрос, зачем она там нужна...).

Очень здорово, особенно после общения с адаптером вертики на этой неделе, где индус релизит код в гитхзаб релизы, но не выкладывает в пип. А месяца 2 как он вообще пропал, не отвечая на ишью. Вот такой вот контрибьютор на зарплате от компании вертика...

🔥3❤2

462 views15:03

StarRocks and modern data stack

Delete всему голова

Немножко посравниваю с вертикой, потому что сталкиваемся с ее ограничениями. Где-то выше я рассказывал, что у нас достаточно много CDC, которые проигрывает 1 в 1 из мусклей самописный сервис. И самые тяжелые времена настают, когда на проде надо обновить много строчек. Понятно, что для мусклей это тоже не очень веселая операция, но не идет ни в какое сравнение с вертикой. Обновление 30-40 млн строк занимает столько времени, что проще переналить с чистого листа все данные с 10 шардированных бд.

Старрокс на 8 млрд таблице это делает со скоростью вставки новых строчек. И это не говоря про то, что в нем есть апсерт вместо реализованного алгоритма delete+insert в вертике (то есть мы делаем там х2 операций).

И вот такая штука сильно поможет нашему продакшену, потому что ребята из бека уже привыкли, что им дышать на свои таблички надо с осторожностью. А ведь можно и нормально жить :)

👍3🔥3

413 views13:56

StarRocks and modern data stack

async quieries

Вчера развлекался с частичной чисткой и заменой данных - примерно 700 млн строчек из хадупных цсвшек в табличку СР. И обнаружил для себя, что кроме асинхронных операций insert бд еще умеет асинхронные CTAS. С одной стороны это плохо, что тебе выкручивают руки - вот тебе 300 секунд, а все что больше делай через таски. С другой сразу прививается хороший тон. Зачем делать такие длительные и тяжелые операции, успешность которых зависит от стабильности твоего канала связи до бд или каких-то совсем неопределенных вещей. В чем вообще смысл наблюдать, как крутится тяжелый запрос? А с тасками глянул статус и занимаешься дальше своей работой.

И подумал вечером, что это ведь подход для работы с dbt, но вот как там реализовать эту асинхронность. Оказалось, что надо просто в профиль написать is_async и поехали. Просто пришествие 21 века.

👍8

393 views14:58

StarRocks and modern data stack

upsert & new version

Интересно, насколько сужается твое зрение, когда долго пользуешься какими-то базами данных или сервисами и начинаешь использовать такие же подходы везде. Когда переносил два больших потока данных в starrocks как обычно сделал в конце проверку на уникальность ключа (кстати, кто знает разницу в использовании данной проверки с навешиванием констрейнта на пк - возьмите с полка пирожок). И вот этот тест считается каждый час, ресурсов жрет немеренно - для ср так вообще такие запросы антипаттерн.

А потом бах - мы везде используем primary key таблицы, у которых в случае совпадения ключа происходит операция upsert без этих всех ваших дополнительных условий. Рука-лицо, дубли невозможны в принципе. Но как обычно, это порождает и обратную ситуацию - крайне легко затереть то, что не надо. У нас шардированные продакшн базы имеют сквозные идентификаторы как раз за счет проверки на уникальность в едином месте - платформе аналитики... Вот тебе и два стула.

А тем временем для версии 3.5 уже выпустили RC1. Темпы просто поражают.

👍7

418 views18:27

StarRocks and modern data stack

CDO и его проблемы

Забавная игрушка - https://www.whoisthebestcdo.com. В первый раз прошел без напряга, а вот последующие разы были уже интересней. Все это выглядит достаточно жизненно, и знаете что самое прикольное? Вот эти циферки в каждом письме, которые +5 авторитета, -100 000$ бюджета, +50 000$ прибыли компании - это ведь ровно то, что жаждет получить бизнес для каждого своего решения от этого самого CDO :) А там каждый раз мрак.

Внедрение СР тоже происходит без циферок, их даже не угадать. ROI в дате? Мне кажется, что для малых/средних компаний, кто не торгует этими самыми данными оно выглядит очень нереально.

Whoisthebestcdo

Who is the Best CDO?

Vote for the coolest cat in the office!

👍4

439 views19:04

StarRocks and modern data stack

День, когда мой мир рухнул

Этот пост снова не про SR :)

Так вот, с школьной скамьи (ну почти, практически с первого собеседования в дату или бек) спрашивают про ACID в базах, и везде крутится речь про транзакции. И вроде бы из общения со всеми базами данных мы знаем, что если у нас появилась ошибка, то значит что транзакция не была закомичена. Как всегда, например, в mysql надо читать мелкий шрифт в ~~договор..~~документации: транзакция будет закомичена, но клиент не обязательно об этом узнает. 😱

В бд отправляется запрос на запись, он не укладывается в таймаут на клиенте и клиент отпадает. БД при этом завершает запрос и успешно завершает транзакцию. В клиенте у нас фейл, по факту успех.

А при чем тут аналитика? Та самая realtime аналитика на событийке, в которой события отправляются после успешной транзакции в бд. А у нас не отправляются, потому что запись в бд прошла не успешно. Но данные там появились и вовремя. И тут иногда думаешь, что CDC не так уж и плоха. Какой-то замкнутый круг это все: от батчей уходишь на cdc, от cdc на событийку, от событийки на батчи - и все это сверками, сверками поверху.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🙈1

467 views17:54

StarRocks and modern data stack

StarRocks 3.4

Была у меня привычка писать про каждый релиз версий 3.3, а тут релизнулась и следующая ветка 3.4, а теперь и вовсе уже озвучена 3.5. Больше хотелось написать про 3.5, потому что там для меня прям классные фичи озвучены, но как же пропускать большой релиз :) Тем более ожидать 3.5 можно не раньше нового года с учетом доведения той версии до стабильной работы.

Вот видео, как всегда все классно нарисовано: https://youtu.be/NHi-0QpMXBA?si=lprLlghiH0JkZok1
И вот почему 3.4 для меня не очень интересна - она идет ровно в том векторе, что озвучивали на новый год: очень сильный упор на SR как lakehouse движок. Повышение скорости работы - тут завезли и асинхронный листинг каталогов, и оптимизации кешей, примочки для iceberg с цифрами в 20% прироста скорости в стандартных бенчмарках.

Для себя увидел прикольное:
* прокачали бекапы - они стали быстрым (утилизация всей пропускной способности сети), они выкидывают в бекап все сущности, которыми может оперировать SR
* протокол arrow flight допонительно к mysql - выгружать в модельки данные станет очень быстро
* python udf - ну куда же без них

Еще прикольно видел, что на FE ноды пришли снепшоты состояния при синке фоловеров с мастера. Архитектура почти везде одинаковая - что знали в hadoop, то дальше можно встретить везде :)

И напоследок - подготовка к митапу почти завершена, анонс случится буквально на этой неделе. Будет классно.

YouTube

Introducing StarRocks 3.4

StarRocks 3.4 has arrived, packed with powerful new features! Take an in-depth look at the latest advancements in data lake analytics, query performance, vector search, and data ingestion—so you can make the most of this update!
-------------------------…

👍7❤2🥰2🔥1👏1

540 views18:21

StarRocks and modern data stack

StarRocks meetup

Всем привет.
Рады пригласить вас на первый онлайн митап по восходящей звезде аналитических баз данных StarRocks 19 июня в 19:00МСК. Митап состоится онлайн, регистрация по ссылке.

Сообщество пользователей подготовило 2 доклада, охватывающие весь спектр задач - от типичного dwh небольшой компании до использования lakehouse движка поверх S3 и открытых форматов. От часовых витрин до bi безумия из сотен тысяч запросов. Мы постараемся ответить - жив ли еще опенсорс, есть ли альтернатива кликхаузу, гринпламу или трино. А если вдруг что-то забудем, то после докладов приглашаем вас на сессию вопросов и ответов в zoom к докладчикам 👍

🔥19👍3

3.43K views15:48

StarRocks and modern data stack

StarRocks and modern data stack pinned a photo

07:54

StarRocks and modern data stack

П - прокрастинация и б - бекапы

Последние 2 недели почти целиком ушли на срочное переписывание сервиса последней мили до пользователей нашей платформы, который уже даже после биай системы. Было весело, и за это даже получил сердечко от ceo утречком в субботу. Приятно - значит сервис нужен.

И вот настало время вернуться к СР и наша сегодняшняя тема - бекапы. Актуально для ребят с shared nothing.

Что же там хорошего:
- очень прозрачный механизм создания бекапа и восстановления
- интеграция с объектными файловыми системами (от hdfs до s3)
- работает быстро (снять снепшот со схемы целиком и записать в локальных хадуп заняло около 2 минут, 112 гигабайт в СР превратились в 77 в хадупе)*
- бекапить можно таблицы, схемы как и когда угодно

* в версии 3.4 обещали значительное ускорение, но перейти ради этого на ветку 3.4 не решился :)

Что плохого:
- If the RESTORE job overwrites an existing database, table, or partition, the overwritten data cannot be restored after the job enters the COMMIT phase. If the RESTORE job fails or is canceled at this point, the data may be corrupted and inaccessible. Восстанавливаться надо осторожно, как и всегда.
- нет бекапа меты самой бд - аккаунтов (это спорная история и можно поспорить: в моем кейсе он бы помог, а абстрактно это дыра)

А при чем тут прокрастинация? Завтра надо иметь на руках черновик презентации на митап, а его еще нет :)

❤2

488 views14:59

StarRocks and modern data stack

Кроилово и попадалово

Задача: изменить количество подключенных дисков в кластер StarRocks.
Статус: кроилово привело к попадалову.

Kubernetes очень классная штука: делает вжух-вжух, имеет встроенный балансировщик и больше никаких шеллов и ансиблов. Но вот там ишью в текущем операторе starrocks - Can't change storage for existing cluster. То есть в созданном кластере нельзя изменить все, связанное с дисками никак через оператор и это ограничение самого k8s (а я то надеялся, что форкну оператор, подмахну пару строчек и поеду дальше). Удалить и создать кластер по новой - в случае использования shared data это задачка на 30 секунд, в случае shared nothing и бекапов - задачка пропорциональная размеру базы данных (вчера на такое потратил около 2 часов). Но есть загвоздка, про которую писал чуть выше - мы не стали использовать LDAP аутентификацию и храним пароли пользователей внутри бд. Бекапить эту информацию СР не умеет (да и не должен), и пересоздание кластера приведет к сбросу паролей - чего хотелось бы избежать.

В ишью выше пишут про удаление хельма, после чего оператор заново его накатит и разделы даже подключатся обратно. Вот только ArgoCD накатывает не helm, а манифесты от него.

У вас есть решение? :)

Да, этой проблемы вообще бы не случилось при установке на железо. И второй истории про то, как старрокс переживает удаление части дисков на всех нодах кластера (очень интересно, вплоть до полной неработоспособности с зелеными индикаторами). Напишу попозже.

❤4

533 views15:31

StarRocks and modern data stack

привет
ссылка на трансляцию митапа по StarRocks: https://kinescope.io/0cphQxWPC9cVwaRJDuXej5

kinescope.io

StarRocks meetup

Watch “StarRocks meetup” powered by Kinescope, the ecosystem of video solutions for business of any size.

👍3

565 views15:54

StarRocks and modern data stack

Saint highload'25

Забавно как иногда все поворачивается. Сижу на докладе от яндекса как хорош ydb по сравнению с спарк и трино, и в конце докладчик получает вопрос: а чем ydb лучше starrocks? :)
Хах, я на докладе про старрокс получил ровно обратный - чем старрокс лучше ydb.
А ответ - они не знают про него и не смотрят, сейчас основной конкурент трино и гринплам.

😁9👍3❤1🔥1

400 viewsedited 11:15

StarRocks and modern data stack

Saint highload'25 немного выводов

Сравниваю исключительно с моим прошлым посещением году в 23 или 22. По самой конфе - доклады стали лучше, даже не 1 и не 2 достаточно интересные. И даже сбер-вк-яндекса стало меньше, а там где есть они стали более техничными. И эта техничность видна по аудитории, общий уровень в айтишечке прыгнул достаточно сильно и высоко. Теперь от мала до велика все умеют патчить опенсорс и не боятся писать сервисы под свои потребности, включая выкладывание в апстрим крупных и больших проектов. И кажется, что на это не только повлиял уход западных вендоров, но и наше импортозамещение с сумасшедшими ценниками за перекомпиляцию и пару фич сверху. И конечно смена технических лидеров в компаниях или смена ветров - все эти разговоры про надежность поставщиков и 2-3 линию поддержку остались в прошлом. Рынок меняется.

Вот такие выводы высосал из пальца и общения :) И да, питерский летний хайлоад - это +15 и проливной дождь.

👍9

454 views06:52

StarRocks and modern data stack

StarRocks meetup 19.06: итоги

Запишу сюда, чтобы висело в закрепе: youtube, rutube, vk.

И немного статистики по мероприятию, которую обычно никто не пишет :)
Число регистраций: 282.
Число уникальных зрителей: 220.
Средний онлайн на протяжении всех докладов: 90-130.
Хороший такой зал собрали, спасибо всем.

👍10

604 views12:15

StarRocks and modern data stack

StarRocks and modern data stack pinned a photo

12:15

StarRocks and modern data stack

Решение кроилова

За всей движухой постоянно коплю долги на канале в виде постов, попробую нагонять.

Решение поста с отключением 50% дисков от кластера в к8с.

Как и писалось, в кубике через оператор нельзя менять для существующих statefulset ничего кроме количества реплик, энв переменных, лейблов и всяких других описательных куб штук. Удалить, изменить или добавить volume нельзя. Поэтому планируйте заранее свой кластер с умом, а не как я :) Так вот, если нельзя, но очень хочется - просто при живом операторе удаляем statefulset для be нод. Поды будут удалены один за другим, и после исчезновения сущности SF оператор заново её создаст и подключит старые диски с данными. Ни один байт не пострадал, хотя я уже стал мастером бекапов.

Но на самом деле это самая простая часть этой операции, и самая надёжная. А вот изменение конфига старрокс с удалением из него директорий хранения на живом кластере убивает все данные вне зависимости от количества реплик. И делает это весьма некрасиво. Данные между всеми директориями и на бе ноде нарезаются очень ровно, а значит скорее всего и между нодами кластера одинаковые данные будут лежать в одном и том же разделе (напоминаю, что в доке ср рекомендуют использовать несколько разделов на одном сервере - это сильное удешевление требований к железу и повышение скорости). В итоге реплик потерянных данных в случае кластеров с малым количеством нод не будет :(
При этом кластер будет добро рапортовать в метриках, что диски заняты, количество таблетов старое, количество строк не изменилось, но на запросе реплик или попытке сделалать селект из любой табличке кроме меты падать с пустой ошибкой.

Вариарт решения - восстановление из бекапов, что и сделал. Операцию можно запускать синхронно, то есть сразу кормить пачки схем на восстановление.

По итогам - я думал, что будет хуже. А все решилось тех окном на 3 часа.

❤6

513 viewsedited 17:13

About

Blog

Apps

Platform