Архитектор Данных – Telegram
Архитектор Данных
1.45K subscribers
203 photos
13 videos
2 files
160 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Архитектурные кейсы

Коллеги поделились успешным внедрением.

Была поставлена задача проноса спиртного в закрытый контур с настроенными политиками безопасности.

Попытки изменить по месту политики безопасности и донастроить ролевую модель успеха не дали, все упиралось в согласования с СБ.

Быстро посовещавшись, было принято прикладное решение в виде фанфуриков, запрятанных в носки.

Перформанс тесты показали производительность около 1 литра, что было на тот момент посчитали неидеально, но удовлетворительно.

Результат - внедрение прошло успешно, целевые результаты проекта оказались успешно достигнуты. Несмотря на все препоны и в кратчайшие сроки
🤣17👏5😁52
Цена Platform-as-a-Service

Я часто слышу критику, что облака берут инфру с ценой ок. 300р за ядро и перепродают за 1200р / ядро, наживаясь в 3 конца. Еще и переподписку сверху накручивают. Кровопийцы на теле трудового ИТ-народа, ррря, расстрелять!

А на самом деле - смотрим скрин письма.

Вот кусок инфры облака попал под топоры и утащил за собой часть кластера кликхауса. Но в процессе вся система нашла способ грейсфул-приостановить себя, решить проблему, перезапуститься на других виртуалках и разрешить всю ситуацию за 4 минуты (!). А пользователь (я) был честно предупрежден, что вот тут будут проблемки на какое-то время.

Это же еще надо было спланировать заранее развертывание кластера таким образом, чтобы при отказе одного из гиперов, он не ложился фатально. И надо выстроить систему, которая решает проблему проактивно, не когда она по факту возникла, а когда есть риск, что вот-вот возникнет.

Наверное, команда, которая организует все вот так, и будет стоить примерно 3х от цены инфраструктуры. Может, немного меньше, а может и сильно больше.

На выходе - не думаешь о том, а что будет с твоим сервисом и с тобой, если (когда) твоему кликхаусу (постгре, куберу, S3 etc) поплохеет.

Потому и ценность, потому и цена. Не думать, опереться на чью-то надежность (а еще и чернила на бумаге что будет работать почти всегда) - стоит за такое заплатить.

🔥 - Даешь пост про расчет облака глазами экономиста - или как обосновать бюджет

😎- Ну эту экономику, давай больше тех мяса и архитектуры!
🔥32😎13😭2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Правда жизни на все времена и для всех профессий :)
😁13👏21
СМИ: 99% телеграм-каналов перешли в Мах

ТЫ: 1%-er
👍13🙏5😁41
Databricks is no longer about tuning knobs - отличную тему поднял Zach. Это тот Зак, который уже млн 3$ заработал на курсах по Data Engineering. Его bootcamp стоит 1500$ с носа + подписка и онлайн курсы. Вот что значит есть аудитория.

Зак утверждает, что Databricks постепенно отходит от дата-инженеров в сторону аналитиков и менее технических пользователей. Три ключевых аргумента:

Физическое моделирование данных больше не нужно — Databricks заменил ручное партиционирование, сортировку и бакетирование автоматическими инструментами (Liquid Clustering, Predictive Optimization), лишив инженеров контроля.

Покупка Tabular за $1B+ замедлила развитие Iceberg — управляемые Iceberg-таблицы в Databricks урезаны: нет скрытого партиционирования, ручной компактификации файлов, управления снапшотами. Всё подталкивает к «магии Databricks» вместо явного контроля.

Бизнесу не нужны дата-инженеры — ему нужен результат — компании хотят быстрые дашборды, работающие модели и дешёвые пайплайны, а не споры о стратегиях партиционирования. AI + платформа заменяют дорогих специалистов.

Вывод: рынок вознаграждает абстракцию, а не контроль. Маятник качнулся в сторону аналитиков, близких к бизнесу, а экспертам по распределённым системам становится всё сложнее найти своё место.

Про iceberg и Tabular реально обидно. Вообще, все используют Delta на Databricks и не сильно заморачиваются про Iceberg.

Я тоже считаю, что учиться надо на реальных вещах - партиции, компрессия и тп. Это классно, когда вендор может сделать magic, но лучше понимать, что происходит под капотом.

На собеседовании вас это именно и спросят.
111👍1
Инжиниринг Данных
Databricks is no longer about tuning knobs - отличную тему поднял Zach. Это тот Зак, который уже млн 3$ заработал на курсах по Data Engineering. Его bootcamp стоит 1500$ с носа + подписка и онлайн курсы. Вот что значит есть аудитория. Зак утверждает, что…
Data Engineer не нужен

А вот правда. Он не приносит видимого результата, единственная его ценность в том что 10 аналитикам комфортнее, если у них есть 1 инженер.

И если раньше это соотношение было 3-5 к 1, то уже сейчас стремится к 10 аналитиков на одного инженера данных.

Появление фреймворков вроде dbt, sql mesh и такого скила как analytics engineer этому способствует. Следующий шаг - распространение класса решений для быстрой GUI-AI наладке ETL и модели данных.

И если до Low-Code пока что далековато, то Low-DE аналитика уже вполне реальность.
💯1343🤡1
Функции de по сути находятся на стыке аналитика, который не умеет готовить себе БД, и администратора БД, который хочет повелевать кластерами, бэкапами и т.д. и не хочет погружаться в предметные области аналитиков.
Поэтому логично, когда аналитики приобретают нужные компетенции + в больших компаниях создаются инструменты no или low code для быстрого создания витрин для эдхоков, то работы для de становится все меньше.
Но российская специфика заключается в универсальности работника - нужен и швец, и жнец, и на дуде игрец) поэтому de будут жить, но, как обычно, заниматься много чем еще)
15💯5👍2😁1
- Внучки, вот вам скриптов, сам написал
- Ой, дед, у нас скриптов в городе - навалом!
- Так то нейронки вам генерируют, а дедушка сам сидел писал.
18😁13👍21
Отставить панику

Ну-у-у запели.

Никто на улицу не пойдет. Просто учитесь работать с людьми. Не с кодом и реквестами. Не с фреймворками и пайплайнами. Не с хранилищем и датаволтами. Даже не с метриками и отчетами. С людьми.

Решение проблемы не код, не фреймворк, не отчет, не ИИ, а Вася.

С ИИ есть легкая проблема что он по поведению мимикрирует под Васю. Но он не Вася, и скоро это все поймут.

Будьте Васей, который решает проблемы. Найдите себе список проблем, которые вы можете решить и Кабанычей, у которых они есть.

Или если вы уже Вася, то вспомните, что выезд технологий из списка популярных не отменяет их наличие и нужность. В мире все еще есть Кобол программисты, так что чего бояться Spark DE или Greenplum DBA? На конференции крутой доклад не сделаете, раз в год работу поменять не получится, но вот докатиться до пенсии на текущем месте - вполне 👨‍🦳

Мы в российских вендорах дойдем до liquid clustering и умной автоподдержки тех же айсбергов. Но не прямо сейчас, так что берите еще пару лет форы на подготовку.

Тем не менее, тренд очевиден, и сейчас всем стоит как обратить внимание на новый тулинг modern data stack, ai data stack, так и начинать мыслить себя за пределами привычных рамок ролей DE, DA, MLE, DBA.
👌85👍1
Обожаю аналитику

Кликхаус, Табло, PostHog, Amplitude, Mixpanel, Графана, Firebase, да даже, прости господи, Яндекс Метрику и Google Analytics есть за что любить.

Могу просто в этом часами залипать:

– Покрутить воронки с разрезами
– Найти где отваливаются юзеры
– Посмотреть когорты по ретеншену
– Построить красивый график, который никто кроме тебя не поймёт
– Настроить таксономию событий
– Найти дырки в данных и доказывать разрабу, что у него бага
– Зарубиться с аналитиками на кухне часа на два за статзначимость
– Загрузить в Клода выборку, спросить что он думает, и получить ответ длиннее чем весь твой беклог

Хорошая аналитика – это как трезвый друг в компании бухих.

Кофаундеры говорят что бизнес прёт, пора начинать инвестировать в маркетинг и бренд, а конверсию увидим потом.

А он такой в баре открывает дашборд и говорит: "Братан, у тебя в первый месяц окупаемость 30%, на второй месяц долетает еще 15%, а к шестому мы окупимся только на 50%. Рано пока".

Неприятно, обидно, но спасибо что сказал.

Все проекты, которые выросли во что-то серьёзное, рано или поздно собирают себе нормальную аналитику.

Сначала на коленке в экселе, потом Амплитуда или Posthog, потом свой Кликхаус с дашбордами, а потом отдел аналитики с занудами.

И в какой-то момент одно решение на основе данных окупает весь этот стек за два года вперед.

Так что ставь аналитику, смотри цифры, и не верь людям, которые не могут пояснить за нормальное распределение ночью в баре.
11
В игре Масс Эффект все придумали

Там была хорошая концепция восприятия ИИ. Наверняка позаимствованная, и у нее есть другой первоисточник, но я его не знаю.

Там было разделение на Искусственный Интеллект и Виртуальный Интеллект.

Первый обладает сознанием, может ставить себе цели и корректировать их, ощущать себя в мире, выстраивать стратегию и так далее. Второй - просто очень крутой интерфейс. С ним можно поболтать, даже попросить совета, но в конце концов это просто железяка с хорошим UI.

То с чем мы носимся последние три года - это как раз ВИ. Мы отложили в сторонку счеты-абак, лог линейку, и взяли в руки инженерный калькулятор. Опа, он синус берет и даже дифур численно решить умеет. Ну окей, что-то от этого меняется, некоторые профессии не будут прежними. Коллайдер и реактивный самолет оно само не придумает.

Попытки представить это ИИ и Святым Граалем идут от желания либо продать подороже, либо сделать вид, что все проблемы в экономике сейчас решатся вот этим.
💯152👍22
Ну не ехать же теперь на работу в выходной день - промо перезаводить!

Ну в самом деле!
😁15👀61🤝1
Вот еще одно прекрасное объяснение ИИ отсюда.

Представь что перед экзаменом ты перекинулся через голову и стал 100% девочкой-заучкой. Ты знаешь все-все из всех учебников, и все решения типовых задачек. Насколько тебе это поможет сдать экзамен въедливому профессору?

А разработка критичных сервисов, как и самая жизнь - очень въедливый профессор.

И перекидывая мостик к ДЕ не нужны.

Проблема ДЕ как раз в том, что они обычно решают типовые задачи. Когда вступают в бой ДЕ, то все бизнес-кейсы уже разобраны, метрики определены, модели обучены, источники данных найдены. Надо просто качественно исполнить прокачку данных на масштабах 10 ГБ или 10 ПБ - у кого как. Используя сервисы платформы данных, которые есть в наличии.

Это как техническая часть выкладок, которую надо проделать в задаче, когда уже идея ухвачена. Наша заучка уже вполне с этим справится.

Еще интересная мысль в статье - можно ли в модели симулировать процесс доктора Эммета Брауна из фильма «Назад в Будущее». Когда он упал с унитаза, треснулся виском об раковину и вдруг осознал принципипальную схему накопителя темпорального потока. Как организовать и сколько будет стоить в ГПУ-часах отрезвляющий удар ЛЛМ об раковину?
🤔541👎1😁1
Архитектор Данных
Вот еще одно прекрасное объяснение ИИ отсюда. Представь что перед экзаменом ты перекинулся через голову и стал 100% девочкой-заучкой. Ты знаешь все-все из всех учебников, и все решения типовых задачек. Насколько тебе это поможет сдать экзамен въедливому профессору?…
Неожиданные идеи приходят к вам в душе или перед сном.

Прорывные бизнес-инициативы вы привозите из отпуска.

Что-то есть в мозгу глубинное, которое включается только в состоянии покоя и вне контекста рутинных задач. Что-то умеет переплетать контексты из разных историй и разных переживаний и приходить к синтезу.

Машину мы сначала научили очень быстро считать и ничего никогда не забывать.

Потом очень быстро делиться информацией.

Потом выполнять сложные программы с тысячей функций и гео-фейловером.

Потом сделали из нее заучку, которая идеально знает все материалы и типовые кейсы.

Теперь надо научиться в синтез и инсайты. Биться головой об раковину как вот этот персонаж.
👍743
Философское - Уровни взрослости платформы данных

Стадия Детская - Мгновенные вознаграждения.

Работаем с входящими запросами пользователей. Разгребаем тикеты.


Стадия подростковая - Планирование.

Мы организуем среднесрочное планирование. Надо пострадать, написать платформенные вещи, сделать ментальные усилия для анализа и закрытия узких мест. Страдания окупятся нам более легким закрытием тасок из п.1

В случае данных это обычно моделирование КХД и выделение бизнес-метрик.


Стадия взрослая - Ценности.

Мы делаем так потому что считаем наши подходы верными. Мы верим что в долгосроке так правильно если даже (о ужас!) непонятно как именно это нам окупится.

На какой стадии вы, мой CDO?
😭74👍1
Вот такой подарок привезли :)

Интересная штука. Я все гадал, что же может весить почти 2 килограмма :)
🔥1131
Сегодня вечером в теплой компании в главном офисе ВК
🔥764👍2
Найм в Дубай, как и промо в Дубай - также просто так не остановишь.

Едем?
😁14😭41💯1