Архитектор Данных – Telegram
Архитектор Данных
1.45K subscribers
202 photos
13 videos
2 files
160 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Forwarded from Ai molodca (Dobrokotov)
This media is not supported in your browser
VIEW IN TELEGRAM
Из комментов, тест Seedance 2.0 подписчика, промт (!): A spectacular fight between a Tajik and an Uzbek over pilaf. They use pilaf to fight each other in spectacular hand-to-hand combat.

ЭТО ЧТО ТАКОЕ ВООБЩЕ?! 😮
Please open Telegram to view this post
VIEW IN TELEGRAM
Два хороших примера использования нейронки
😁11
Снаряд два раза в одну воронку не падает

Интересно, что у архитектора данных вышел цикл постов о том, почему стоит ехать в облако. А тем временем в нашей вселенной идет все ускоряющийся цикл ухода от облачной инфраструктуры во внутреннюю платформу данных чисто на реализовавшихся рисках (деньги смысла считать даже нет, стоимость рисков с лихвой покрывает всё).

Про что речь? В своем докладе что на смартдате, что в остальных местах я рассказывал про блокировку аккаунта в Google BigQuery в прошлом году на время уточнения данных, и заняло это 3 недели. Что случилось 2 недели назад? Да, аккаунт опять заблокировали, опять уточнение, ну а работа - потерпите, чай не сахарные. И следом уже вчера заблокировали целый пул ip адресов европейских цодов из стран вокруг РФ - запрет на использование api своих сервисов (BQ, GCP). То есть ты находишься не в РФ, платишь не с РФ, но никого не волнует.

Итого последние 3 недели мы перевозим проекты в StarRocks днем и ночью. Но почему-то получилось, что вместо расчета их там все заехало в Spark. Причина достаточно простая - наши эксперименты с бигквери проходили на проектах малого размера, почти все модели в dbt считались на table материализации. Spark такие штуки раскладывает примерно за 10-15 секунд на витринку, нагружать же mpp бд такого рода нагрузкой кажется напрасной затеей. Ведь в чем всегда была притензия к данным в хадупе - медленное чтение, а вот витринки собираются порой быстрее вертики (да что там, кликхауз у меня тоже получалось когда-то в телекоме обогнать). В итоге пользователи, биай и сервисы читают и делают эдхоки через StarRocks, а счет идет в кластере хадупа - все по заветам современных историй лейкхаузов, правда без перекладывания данных в слой доступа.

Ну а какие выводы можно сделать за эти 2 недели? А вот такие:
* перевозить витрины можно очень быстро
* сверять результаты между системами - чудовищная по трудоемкости операция
* витрины начинают разбегаться между системами буквально на следующей недели после переноса - надо или следить, или очень быстро ехать

Даже если функции выглядят в двух системах похоже (именуются одинаково), то совсем не факт что их аргументы или возвращаемые результаты будут идентичными. И поверх накладывается проблема вскрывания ошибок во время написания витрин в исходной системе, когда мы вынуждены или переносить расчет данных и найденную ошибку, либо мы теряем возможность построчной сверки :(

Вообщем печаль, беда и разорение. Если кто знает уже готовый тулсет для сверки таблиц построчно-поколоночно на спарке - напишите в комментарии, пожалуйста. Написать свой вроде несложно, но вдруг древние уже учли все проблемы. Почему spark? Потому что можно в нем внутри сравнивать разные системы без материализации и копирования данных, а еще легко сделать select sha1(*) from...
8👍3🔥1
О далеких доброжелателях

На днях подписчик прислал ссылку на пост в жанре площадной филиппики в мой адрес.

В целом мне приятно, что малознакомые люди, собравшись в кружок вечером в субботу, обсуждают меня. Пусть даже предметом являются мой кошелек, мои бонусы и сильно искаженная версия трудовой биографии. Видимо, так и приходит «известность».

На пару тезисов, тем не менее, отвечу.

Первое. Я не являюсь энтерпрайз архитектором в жанре «рисую стрелочки, дорого». Я не имею отношения к архитектуре ВК, где соцсети, почта, реклама. Я работаю с заказчиками ВК Облака, типичный мой заказчик - медиум и крупный российский бизнес. Те, кто размещают инфрастуктуру данных в облаке на IaaS, SaaS, PaaS или думают об этом. В реалиях рынка мне открыто сильно больше, чем типовому дата инженеру просто потому что перед глазами не 1 проект в котором я устроен, а 15-20 проектов заказчиков облака, с которыми я взаимодействую.

Второе. Бонусы у меня и правда есть, они и правда неплохие. Но привязаны они к перформансу моего продукта на рынке. Я кровно завишу от того, насколько интересно людям то что я говорю и насколько работают технологии, которые я предлагаю. Работают и приносят пользу - см. п.1 - в рядовом российском энтерпрайзе.

Третье - про обвинение в «воровстве» чье-то кода. Накатик в том, что я сделал демонстрационный репозиторий не с нуля, а на основе другого открытого. И если бы я скопипастил код без указания на авторский, это было бы воровство. Если бы я взял без спроса платный лицензируемый продукт, это было бы воровство. А когда ты берешь открытое произведение, указываешь автора, дополняешь своими соображениями и также выкладываешь в общий доступ - это нормальные опен-сорсные практики. Если поверх любого моего репо кто-то сделает что-то себе полезное, я только порадуюсь, и уверен, что автор оригинала тоже.

Расшифрую: если видишь кроме надписи forked рядышком также надпись This branch is N commit ahead of, это означает, что предлагаемое содержит дополнения по сравнению с. К примеру, в оригинале сборка не устанавливается на чистую систему и требует пререквизитов, в моей сборке - ставится. Есть расхардкоженные пароли, унесенные в зону вне репо и тд. Это все не инженерный мастерпис, но это экономит время и понижает порог входа в сборку. Если мы с командой сэкономили 30 минут каждому, кто попытается использовать сборку по назначению, считаю, что дополнения сделаны и выложены не зря. По факту уже сейчас воспользовались 50+ человек, те, о которых знаю.

Авторам пасквилей рекомендую обсудить что-то более духовное, чем чужой кошелек, когда в следующий раз они «соберутся на яхте». И заняться чем-то более полезным, чем распространение клеветы в адрес малознакомых людей.

Ссылка на филиппику - в первом комменте

P.S. Картинку в посте я тоже у Ильи Репина украл.
👍15😁156👏3
Peace

Что ж, рад что мы во всем разобрались. Явную клевету убрали (хотя интернет помнит все), с Димой (@rockyourdata) мы объяснились. Что ж, кто не устранял последствия разгульных вечеринок, тот не жил и не дышал 🫢

Спасибо всем, кто оказал поддержку! Очень приятно знать, что вокруг люди, готовые помочь и словом и делом. Неимоверно вас ценю.

Теперь peace и архитектура
16👍87
Forwarded from Mikhail Tokovinin
Предприниматель в 2026-ом

Логично в последний рабочий день 25-го подумать о том, как мы будем жить в грядущем 26-ом. Жить будем сложно, но весело. Гарантировано.

Степень неопределенности зашкаливает. Что будет с СВО? Что с санкциями? Как малый бизнес переживет новые налоги (и переживет ли)? Какая будет инфляция? Какая будет ставка? Что будет с авторынком при такой ставке и утиле? Добьют ли карго? А курс? Какой будет курс? А тут еще и WhatsApp забанили, и непонятно, где будет трафик и в какой канал инвестировать? А тут еще ИИ и ИИ-пузырь.

Всё это превращает бизнес в 26-ом немного в лотерею.

И что делать? Кто-то начнет рассказывать байки про некую «антихрупкость», а я скажу проще: маржа! У кого будет маржа, тот и выживет. В 26-ом нужно быть максимально маржинальными.

Режьте косты «не дожидаясь перитонита». Все эти прожекты, т.н. инвестиции и прочие фантазии - всё надо резать - сокращать расходы, ради сокращения расходов. Да, это порождает порочную спираль, ведь ваши расходы - это чьи-то доходы, а значит, если все начнут резать расходы, то у всех упадут и доходы. Но в бизнесе иногда не проблема «умереть», главное - «умереть последним».

Но как же будущее? А что потом? А вдруг мы пропустим рост?

Братцы, в России выживают пессимисты. Так что готовимся к худшему, надеемся на лучшее.
👍1
Mikhail Tokovinin
Предприниматель в 2026-ом Логично в последний рабочий день 25-го подумать о том, как мы будем жить в грядущем 26-ом. Жить будем сложно, но весело. Гарантировано. Степень неопределенности зашкаливает. Что будет с СВО? Что с санкциями? Как малый бизнес переживет…
Давно хотел запостить.

Это взгляд крупного бизнеса на 2026-й. Режем, откладываем, ужимаемся. Прожить год, потом инвестиции. В России выживают пессимисты.

Если вы торгуете любым инвестиционным товаром - поздравляю, у вас трудности. Привет платформам данных и ИИ.

Учитесь операционализировать свои предложения, говорить про пользу здесь и прямо сейчас, а не когда-то через год.

Ну и начинайте с малого, растите доверие у заказчика, пока все сидят на заборе со своими огромными капексными коробками и ждут хороших лет.
Так выглядит снапшот Айсберга. И какой это кладезь метаданных!

Тут есть
• когда изменились данные
• что именно произошло в этом изменении: аппенд 9 дата-паркетов.
• Какое состояние таблицы: записей, число дата-файлов всех видов
• через какой движок: Трино версия 468, библиотека Айсберг 1.7
• какой юзер это сделал
• какой айди запроса в точности

Через 2 дня это будет зачищено, но до того доступно для любых DG / Sec Audit тулов!
10👍55
Современные проблемы требуют современных решений
😁21🤮1😭1
Худшие фейлы в DE

Наткнулась на тред в реддите, где обсуждались фейлы на работе. Мне больше всего зашли 2 истории, они такие смешные и страшные одновременно🤯

1️⃣Стриминг писал в то же самое место, откуда и читал. Это все длилось год, поэтому накопилось сотни триллионов миллиардов версий документов. Проблема обнаружилась, только когда к ним пришел AWS и пожаловался на проблемы в своих системах

Неужели за этот год они не заметили, как эти пайплайны работают все медленнее и медленнее, почему такая высокая нагрузка и что в таблицах кучи дублей?

2️⃣DE понизил уровень логирования до DEBUG, и это привело к расходам в 100к долларов за неделю

Кажется, теперь я знаю способ, как можно уменьшить расходы компании. Ничего не логировать 😁

💰 Мы сейчас тоже переходим в эру FinOps. Будем пугать аналитиков, чтобы писали оптимальные запросы 😁

А у вас было что-то супер серьезное?

Ссылка на тред

@data_engineerette
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8😭44
Абсолютно так

Хорошая годная хабростатья от коллег.

https://habr.com/ru/articles/1000506/
🔥13👍641
Архитектурные кейсы

Коллеги поделились успешным внедрением.

Была поставлена задача проноса спиртного в закрытый контур с настроенными политиками безопасности.

Попытки изменить по месту политики безопасности и донастроить ролевую модель успеха не дали, все упиралось в согласования с СБ.

Быстро посовещавшись, было принято прикладное решение в виде фанфуриков, запрятанных в носки.

Перформанс тесты показали производительность около 1 литра, что было на тот момент посчитали неидеально, но удовлетворительно.

Результат - внедрение прошло успешно, целевые результаты проекта оказались успешно достигнуты. Несмотря на все препоны и в кратчайшие сроки
🤣17👏5😁52
Цена Platform-as-a-Service

Я часто слышу критику, что облака берут инфру с ценой ок. 300р за ядро и перепродают за 1200р / ядро, наживаясь в 3 конца. Еще и переподписку сверху накручивают. Кровопийцы на теле трудового ИТ-народа, ррря, расстрелять!

А на самом деле - смотрим скрин письма.

Вот кусок инфры облака попал под топоры и утащил за собой часть кластера кликхауса. Но в процессе вся система нашла способ грейсфул-приостановить себя, решить проблему, перезапуститься на других виртуалках и разрешить всю ситуацию за 4 минуты (!). А пользователь (я) был честно предупрежден, что вот тут будут проблемки на какое-то время.

Это же еще надо было спланировать заранее развертывание кластера таким образом, чтобы при отказе одного из гиперов, он не ложился фатально. И надо выстроить систему, которая решает проблему проактивно, не когда она по факту возникла, а когда есть риск, что вот-вот возникнет.

Наверное, команда, которая организует все вот так, и будет стоить примерно 3х от цены инфраструктуры. Может, немного меньше, а может и сильно больше.

На выходе - не думаешь о том, а что будет с твоим сервисом и с тобой, если (когда) твоему кликхаусу (постгре, куберу, S3 etc) поплохеет.

Потому и ценность, потому и цена. Не думать, опереться на чью-то надежность (а еще и чернила на бумаге что будет работать почти всегда) - стоит за такое заплатить.

🔥 - Даешь пост про расчет облака глазами экономиста - или как обосновать бюджет

😎- Ну эту экономику, давай больше тех мяса и архитектуры!
🔥32😎13😭2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Правда жизни на все времена и для всех профессий :)
😁13👏21
СМИ: 99% телеграм-каналов перешли в Мах

ТЫ: 1%-er
👍13🙏5😁41
Databricks is no longer about tuning knobs - отличную тему поднял Zach. Это тот Зак, который уже млн 3$ заработал на курсах по Data Engineering. Его bootcamp стоит 1500$ с носа + подписка и онлайн курсы. Вот что значит есть аудитория.

Зак утверждает, что Databricks постепенно отходит от дата-инженеров в сторону аналитиков и менее технических пользователей. Три ключевых аргумента:

Физическое моделирование данных больше не нужно — Databricks заменил ручное партиционирование, сортировку и бакетирование автоматическими инструментами (Liquid Clustering, Predictive Optimization), лишив инженеров контроля.

Покупка Tabular за $1B+ замедлила развитие Iceberg — управляемые Iceberg-таблицы в Databricks урезаны: нет скрытого партиционирования, ручной компактификации файлов, управления снапшотами. Всё подталкивает к «магии Databricks» вместо явного контроля.

Бизнесу не нужны дата-инженеры — ему нужен результат — компании хотят быстрые дашборды, работающие модели и дешёвые пайплайны, а не споры о стратегиях партиционирования. AI + платформа заменяют дорогих специалистов.

Вывод: рынок вознаграждает абстракцию, а не контроль. Маятник качнулся в сторону аналитиков, близких к бизнесу, а экспертам по распределённым системам становится всё сложнее найти своё место.

Про iceberg и Tabular реально обидно. Вообще, все используют Delta на Databricks и не сильно заморачиваются про Iceberg.

Я тоже считаю, что учиться надо на реальных вещах - партиции, компрессия и тп. Это классно, когда вендор может сделать magic, но лучше понимать, что происходит под капотом.

На собеседовании вас это именно и спросят.
111👍1
Инжиниринг Данных
Databricks is no longer about tuning knobs - отличную тему поднял Zach. Это тот Зак, который уже млн 3$ заработал на курсах по Data Engineering. Его bootcamp стоит 1500$ с носа + подписка и онлайн курсы. Вот что значит есть аудитория. Зак утверждает, что…
Data Engineer не нужен

А вот правда. Он не приносит видимого результата, единственная его ценность в том что 10 аналитикам комфортнее, если у них есть 1 инженер.

И если раньше это соотношение было 3-5 к 1, то уже сейчас стремится к 10 аналитиков на одного инженера данных.

Появление фреймворков вроде dbt, sql mesh и такого скила как analytics engineer этому способствует. Следующий шаг - распространение класса решений для быстрой GUI-AI наладке ETL и модели данных.

И если до Low-Code пока что далековато, то Low-DE аналитика уже вполне реальность.
💯1343🤡1
Функции de по сути находятся на стыке аналитика, который не умеет готовить себе БД, и администратора БД, который хочет повелевать кластерами, бэкапами и т.д. и не хочет погружаться в предметные области аналитиков.
Поэтому логично, когда аналитики приобретают нужные компетенции + в больших компаниях создаются инструменты no или low code для быстрого создания витрин для эдхоков, то работы для de становится все меньше.
Но российская специфика заключается в универсальности работника - нужен и швец, и жнец, и на дуде игрец) поэтому de будут жить, но, как обычно, заниматься много чем еще)
15💯5👍2😁1