Starrocks and modern data stack – Telegram
Starrocks and modern data stack
354 subscribers
86 photos
72 links
Будни современного стека для работы с данными с позиции платформенного инженера: starrocks, vertica, hadoop & spark, половинка k8s с щепоткой golang.
Не единым гп и скалой жив рынок :)

@barloc
https://news.1rj.ru/str/dbt_users
Download Telegram
Рынок труда и всякое

К концу года совсем иссякли силы на всякую активность :( Очень хотелось провести закрывающий митап с историями неуспеха и коммерческого успеха, но прям совсем сил не осталось, к сожалению. Ну ничего, в новый год с новыми радужными ожиданиями.

А пока хотелось немножко поговорить про текущий рынок труда на просторах РФ, а он поменялся. Делаю выводы из наблюдения за ХХ и по результатам трехмесячного висения нашей вакансии там же.

Про StarRocks: вакансии есть, примерно десяток набирается. Часть из них по итогам коммерческого внедрения в ближнем зарубежье, часть по внедрениям опенсурса (привет оцрв, Артем, мы). Часть вакансий достаточно интересная для опытных ребят типа продакт менеджера дата платформы МТС или деврела для DIS. Джуны, мидлы и сеньоры тоже востребованы как исполнители на уже внедренные системы, или эксперты для выбора (тот же Х5 поменял требования в своих вакансиях и там снова появился может быть временно SR). Конкуренция с Apache Doris - по нему нет ни одной вакансии, нет такой системы :)

А если говорить вообще про рынок дата инженеров в РФ, то вот такое: наша очень простая вакансия набрала уже больше 150 откликов на ХХ, и такого не бывало никогда. Отклики из больших компаний идут прям массово, маленькие не отстают. Из 150 человек только 2 человека не имели работу, все остальные ищут не отходя от станка. Джуны с резюме мидлов, мидлы с резюме сеньоров, чаще всего смена работы раз в год и менее.
Мне тут кажется, что рынок поменялся очень сильно и вот эта старая парадигма умерла. И бюджетов на такие подвиги не осталось, и данные не стали новой нефтью. А может это просто брюзжание старпера - мне на пенсию пора по меркам айтишечки :)
👏7👍3🔥32🤝2🫡2
Стоматологи, количество релизов и Hive 4

Вчера оказался в кресле у хорошего врача-стоматолога, и делать то в нем особо нечего кроме сна или подсчета количества предметов, которые необходимы при современном лечении зубов. Врач хороший, а число используемых штук зашкалило за несколько десятков (если не сотню) - резиночки какие-то, кольца, салфетки, буры, наждачка, бедный мед брат устал бегать по комнате и ящичкам, иногда убегая на общий склад. Так а почему хороший? А мне показали фото до, в процессе и после - и правда под пломбой не было видно кариеса. Вот мне и подумалось, что хорошего специалиста отличает умение использовать инструмент по необходимости. Решил спроецировать на платформы данных - и получается не очень хорошо :( Может быть потому что такой избыток инструментария помогает эффективно решить задачи хорошему профи, а остальных напрягает. Данные мы вынуждены разбрасывать везде, то есть при куче баз типа текущего хадуп+какой-нить гринплам + какой-нить кликхауз - это требует от специалиста знать их все хорошо и зачем они все нужны, да еще жрут ресурсы. В отличие от мудрой штучки у врача, которую он волен использовать, но может и обойтись. И она не будет есть ресурс кроме вложенных инвестиций.

А между тем созрело время обновлять наш инстанс StarRocks, и если честно разнообразие версий делает этот процесс сложным. Отход от позиции "держим в разработке 3 последних минорных версии" смущает - ветка 3.3 до сих по стейбл и до сих пор получает обновления. 3.4 и 3.5 выглядят одинаково, ну 4 слишком горячая. Как-будто не хватает воли закрыть 3.3 и ехать дальше, а ведь это опенсорс - никаких гарантий никто и не обещал :) В итоге обновились на 3.4.9. Очень ждем 4 ветку, так как без multiquery transactions жизни с нормальным продовым CDC особо нет.

И раз уж пост состоялся про версии всякие и инструментарий, то неожиданно для себя узнал о релизе Apache Hive 4.2: с поддержкой 21 жабы и активного допиливания работы с айсбергом. А HMS они перевели на 17 жабу еще в прошлом релизе, в том числе выпустив его в докере. Не знаю кто вдохнул в него жизнь, но кажется, что старичок еще может побороться на этом попроще.
9👾1
Итоги обновления на 3.4.9

Все в роллинг обновлении прекрасно, кроме вынужденного двойного рестарта всех нод кластера. Ситуация: ушла команда на обновление до новой версии и кластер начинает перегружать ноды по 1 штуке за раз для своего типа - то есть 1 be + 1 fe в нашем случае. Таким образом примерно через 3-5 минут у вас на руках вроде бы обновленный кластер.

Как обычно есть НО. Не знаю внутренней реализации общения нод в кластере с нодами разных версий, но видимо что-то там не совсем корректно работает. По метрикам мы получаем полностью рабочий кластер, данные разложены ровно, запросы идут будет проблем, но если выполнить ту же команду SHOW BACKENDS, то у всех нод кластера время last heartbeat на момент рестарта вместо текущего времени, а половину нод без данных. Впору хвататься за сердце :) К этому добавляется такие графические эффекты, как попытка текущих нод be найти старые ноды по старым ip адресам (хотя в кластере вместо ip используются fqdn).

Ну короче вы поняли, сем бед - одиндва резета. Запускаем еще один ролинг рестарт и кластер приходит в себя, ноды на месте, метрики норм, потеряшек нет.

Времени выполнения регулярных заданий dbt на ветке 3.4 по сравнению с 3.3 уменьшилось на 10-15%, по потребляемым ресурсам изменений нет. Вроде бы неплохо получилось :) А может это просто ноды в кластере перегрузились и ресурсы почистили, до этого аптайм был несколько месяцев...
👍72👾1
Цель - найти на картинке себя

Прикольно, получил награду как амбасадор StarRocks в нашем локальном комьюнити :) Интересно что будет в следующем году.
🔥24
Сказали и сделали

Ребята из starrocks.pro времени зря не теряли и сделали курс по администрированию SR на платформе stepik.

До конца новогодних праздников действует скидка 50% на покупку: промокод NY26.

Пробежался по демо - шероховатости перевода есть, порой все слишком буквально, не хватает нашей редактуры и может быть чуть наших реалий (дада, речь про 7 млрд юаней :)

Вообщем кому на праздниках заняться нечем - вот :)
🤡12👍6🔥2👾2👎1
Вводный курс

Я слегка слепой, поэтому не заметил рядом с курсом выше вводный бесплатный курс - https://stepik.org/course/267743/info
И в этом же курсе лежит презентация по СР - очень классная в плане объяснения азов этой бд: https://drive.google.com/file/d/1mTPE187oK4gh17iNSbL-meBCMAQ_IFWP/view
Мне кажется, что начинать с этих вещей для ознакомления - отличный подход.
🔥6👍4👾2
Starrocks and modern data stack pinned «Вводный курс Я слегка слепой, поэтому не заметил рядом с курсом выше вводный бесплатный курс - https://stepik.org/course/267743/info И в этом же курсе лежит презентация по СР - очень классная в плане объяснения азов этой бд: https://drive.google.com/file…»
Итоги года Планы 26 и немножко лыбтыбра

Кому интересно читать то, что уже произошло - оно же уже в прошлом. Подметили эту проблему на работе - там мы каждый квартал подводим его результаты и планируем следующий. И вот когда планы уже озвучены - какой смысл смотреть назад. Но при этом верная очередность все равно - сначала планирование в этом квартале следующего, а подведение итогов по окончании текущего квартала в следующем. Короче 31 декабря, вы понимаете... :)

Еще пару месяцев назад думал, что придумать интересного и полезного на работе не получится, а оказалось всё не так плохо:

* внедрение Apache Paimon - не зря же столько умных людей про него говорят. В отличие от айбсерга тут видится польза в платформе данных - вот и попробуем ее найти (кажется, что тут будет заявка на конфу)
* построение той самой платформы как федеративной системы, про которую нам рассказывают с 20218 года просвещенные люди на дата конфах. Потому что уже на текущий момент к СР подключено больше десятка внешних каталогов, и паймон здесь тоже будет в тему (кажется, что и тут заявка на конфу - просто потому, что вообще вся эта идея мне не нравится и кажется откатом в какое-то древнее прошлое нулевых или десятых)
* вы любите делать выгрузки? вот и мы нет. RAG с векторным поиском в СР + MCP для выполнения запросов - вроде должно быть прикольно и полезно. (кажется, что и здесь можно будет рассказать)

Вообще все становится достаточно интересно, когда в платформе появляется время на развитие профильных сервисов. Мы достаточно долго жили в парадигме охватить необъятное - от devops до построения сложных витрин. И вот только в этом году произошла разгрузка по задачам и сразу появилось время на интересную движуху (ну правда мы этот год потратили на ликвидацию накопленного за 3 года тех долга - зато вошли в будущее без этих гирь на ногах).

Ну и это, всех с Новым годом! Счастья, здоровья и денег побольше. И интереса в жизни, без него вообще ничего не поможет.
8🔥4👾1
Forwarded from ScratchAuthorEgo
📊 Channel Analysis Results by @ScratchAuthorEgoBot

🎯 Channel: @modern_data_stack

🔥 Roast Analysis:

Слушайте, ну это же классический экспонат «DE-дед обыкновенный». Его канал — это бесконечный сериал «Стас и его китайская палочка-выручалочка StarRocks». Такое ощущение, что если у Стаса сломается кофемашина, он не понесет её в ремонт, а попробует прикрутить к ней dbt-адаптер и выгрузить историю помола в S3 через StarRocks, потому что «так быстрее и вообще это современный Lakehouse».

Стас — это человек-противоречие. Он полдня рассуждает о том, как важно беречь нервную систему и уходить в оффлайн, но при этом тратит субботу на ковыряние в конфигах CDC, которые в итоге «всё равно не подошли». Он ненавидит пятничные релизы и скрам-мастеров, но сам живет в режиме «ой, я случайно снес кластер, пойду заварю чай и восстановлю его из говна и палок за три часа». Настоящий амбассадор боли: сначала сам создает себе проблемы (удаляя диски в k8s, «потому что так интереснее»), а потом героически их решает, попутно поучая всех в телеграме, что «кроилово ведет к попадалову».

Его отношения со StarRocks похожи на стокгольмский синдром. База выдает ему ошибки месячной давности, падает при двух одновременных запросах и скрывает настройки в закрытом коде, но Стас нежно называет её «восходящей звездой» и получает за это значки. Видимо, после работы с Вертикой и Кассандрой любой софт, который не плюет тебе в лицо сразу при запуске, кажется божественным.

А этот пассаж про «лидера команды из двух человек»? Стас, это не команда, это ты и твое отражение в мониторе, которое кивает, когда ты в очередной раз решаешь переписать всё на Go. Ты жалуешься, что от тебя убегают на конференциях с криками «опять про Старрокс», но при этом заводишь группу в ТГ, чтобы догнать тех, кто не успел убежать. Твое «брюзжание старпера» уже достигло такого уровня, что скоро ты начнешь сравнивать время отклика БД с очередями за колбасой в 80-х.

И вишенка на торте: использование AI для написания документации, потому что «самому лень», но при этом критика Slack за плохой API. Чувак, ты буквально работаешь в индустрии, где «всё сломано», и твоя главная суперсила — это умение с умным видом объяснить, почему оно сломано именно так. Но мы тебя любим за то, что ты хотя бы форкаешь адаптеры, пока остальные просто плачут в Jira.
🤣85🔥2
Вот и получилось ожидаемо (или релизные истории StarRocks)

Версия 3.5 стала stable, 3.4 пропущена и никому не нужна... Когда практика опровергает слова.
3👍2🤩2
Ехал метастор через метастор, видит метастор в метасторе метастор...

Одни очень большие ребята рассказали, что активно смотрят на Apache Gravitino. Плохого же не посоветуют, вот и я решил посмотреть.

А получается у нас на руках каталог каталогов, через который можно управлять метаданными во всем своем зоопарке. Имея на руках HDFS+Spark, StarRocks, Vertica (jdbc) и MySQL, можно из одного места раскатывать миграшки, управлять доступами и даже работать (если есть коннектор). Интересно как реализован линейдж, но мне кажется, что это не совсем тема каталога.

Идея интересная, наверное для больших ребят напрашивается. У нас сейчас 4 сервиса управления доступами (причем довольно разных), только миграции раскатываются через один сервис и однотипно. Аудит - не уверен что в этой штуке реализован корректно.

Подумал, что можно наконец выкинуть из стека Apache Ranger, но нет - это только прослойка для него.

Очень неоднозначная штука, на мой взгляд, и профит от нее для платформы надо внимательно рассматривать под микроскопом.

Видите пльзу для себя, затеялись бы внедрять? :)
👍5