Архитектор Данных – Telegram
Архитектор Данных
1.08K subscribers
142 photos
8 videos
2 files
111 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Почтенная дама RDBMS:

Вот смотри, LLM, и мне и тебе посылают запросы. Для того, чтобы запросы работали, как надо, требуется некоторым образом обученный инженер со специфическими навыками.

Фактически и SQL-аналитик, и промпт-инженер излагают ЧТО они хотят получить на некотором птичьем языке, а не тот процесс КАК мы это должны собрать.

Я, почтенная СУБД, делаю это все с 90-х, а ты появилась только сейчас.

Но Искуственный Интеллект - это почему-то ТЫ.

Ответ (ваши варианты):
.........................................
😁113👏31
Рабочая проверка №2 - для кандидатов

В ходе беседы находишь пункт, который
а) кандидат явно не знает
б) важен для тебя / твоей позиции

Прозрачно говоришь, что вот этого - не хватает.

Встречаешься через неделю и смотришь, если есть прогресс конкретно в этом пункте. Все остальные опыт и заслуги не важны, только этот. Затраты по времени - 15 минут, но все понятно.
👍10😁211
У нас было (Жиза)

💾 17 ETL джобов из ниоткуда в никуда, которые загружали под крышку MPP базу на 50 ТБайт

💾 Красивый технологичный AI Layer который делал непонятно что

💾 Дата Каталог который никто не обновлял 4 года. И никто не смотрел в него

💾 Алерты на качество данных, замьюченные у всех

💾 Ручной загружатор CSV

💾 5 аналитиков, которые рисовали сводные в экселе и вставляли их картинками в Павер Поинт. На разных слайдах были разные цифры по месячной выручке.
Please open Telegram to view this post
VIEW IN TELEGRAM
5😁1512👍3🔥1👏1
Вопросы со стрима часть 2

Спасибо, Сергей Сафронов, за вопрос!

1️⃣ Если не говорить про управляемые облака, то, кажется, что ограничением по по объему данных для унифицированного LakeHouse на S3 opensource движках (Minio, Ceph) будет примерно 1ПБ. А если нужно больше, то, или смотреть в сторону облаков, или делать несколько кластеров S3 с усложнением и архитектуры хранения-обработки?

Для дата команды S3 - базовая инфраструктура. Сколько там кластеров, какие они и как распределены по ЦОДам - вопрос к инфраструктуре. Сейчас довольно много способов получить S3 либо в SaaS, либо развернуть у себя в контуре - как самостоятельно, так и просто купив S3 как продукт или ПАК.

2️⃣Кажется, что Вадим несколько лукавил про простоту и быстроту миграции на LakeHouse данных. Все-таки, факторы бэклога инженеров, их компетенции в новых технологиях, сетевая доступность и разная конфигурация (разное шардирование) кластеров источника и приемника, разный формат хранения, возможно, разная архитектура слоев данных и многое другое. Поэтому, слабо верится, с учетом этого, что миграция может пройти за месяц (если я правильно понял срок)

Тут речь шла про прикладную миграцию данных. Data Vault в Гринпламе на Data Vault в Lakehouse. Для такого не нужно много времени и переделки архитектуры.

3️⃣ Есть ли какие-то best practice по оптимальной архитектуре слоев данных в LakeHouse с учетом разных движков доступа (Trino +) и разных сценариев использования? С точки зрения технических ограничений и особенностей (для примера, в ClickHouse нет смысла делать Data Vault и вообще 3NF)

В крупных организациях почти везде DV так или иначе. Плохеет ли от ДатаВолта распределенной системе - конечно плохеет. Но мы снова платим оверхедом за удобство и скорость разработки. К тому же проблему «неудобной» для МРР архитектуры данных можно решить добавив ресурсов в некоторых разумных проблемах.

Нет смысла подгонять архитектуру данных под инструмент. Пусть работает, как нам удобно, тупая железяка! 😎

-----------------------------

Разбор стрима

Вопросы со стрима - Часть 1

-----------------------------

💾💾💾💾💾
Please open Telegram to view this post
VIEW IN TELEGRAM
👍773
Архитектор и три его джуна осматривают озеро данных, почти превращенное в болото.

Усадьба Кусково.
24😁15😎7🔥221
Эпоха сражающихся хранилищ

Из недавней беседы с весьма уважаемым ИТ-лордом. Типичная динамика КХД в организации.

Сначала в конце 2000-ных хранилища строились в основном для финансовой отчетности. Главная цель - отчеты для собственников и топов на тему PnL и основных управленческих метрик. Как правило за это ХД либо отвечает, либо непосредственно производит на свет финансовый отдел. Назовем эту структуру ФинХД.

ФинХД быстро окукливается в себе и копает ров по периметру. Когда у кого-то еще появляется потребность в данных, он как правило отправляется далеко и надолго - у ФинХД свои ресурсы, роадмапы, беклоги, спринты.

Идет время, и от безысходности в других отделах появляются свои ЭрзацХД, хоть как-то отвечающие их интересам. Стек данных фрагментируется, появляются все связанные с этим болячки.

Болячки проступают до руководства - немудрено! Где у вас единая версия правды? Сколько клиентов за последний месяц? Почему настолько разные цифры от разных людей в ответ на самые простые вопросы? И принимается решение делать ЕдиноеХД. С вероятностью 98% на роль ЕдиногоХД назначается команда ФинХД, как самого аппаратно весомого. Привычки замкнуться в своих роадмапах и посылать всех в путешествие от переформатирование ФинХД в ЕдиноеХД не меняются.

Наступает еще больший разброд и разлад с переходом во все виды аппаратных конфликтов. Эпоха сражающихся хранилищ.

В 2025 году компания ждет сияющего CDO Цинь Шихуанди, который прекратит эпоху раздробленности и устроит «все под Небесами».

Не всегда гуманными методами.
110👍9😁5💯21👏1
#Прямая_речь
Декан экономического факультета МГУ Александр Аузан об искусственном интеллекте в образовании:

«ИИ распространяется как торфяной пожар - скрыто, но неизбежно. Рискну предположить, что нынешняя система школьного и высшего образования из-за этого изменится даже быстрее, чем рынок труда. В ближайшие 3-5 лет она просто сгорит с привычными нам контрольными, тестами и экзаменами.
Что такое экзамен сегодня? Это микрокамера в пуговице, микронаушник в ухе и нейросеть в смартфоне. Вместо ученика экзамен сдает ИИ, а с другой стороны его ответы вместо преподавателя проверяет тоже ИИ. Результат известен заранее.
Конечно, в особых случаях можно экзаменовать так, чтобы никто не смог воспользоваться техникой, но в масштабах всей системы это невозможно и, в общем-то, бессмысленно. Люди все равно будут чем дальше, тем чаще перекладывать решение широкого круга задач на ботов. Это не остановить, как нельзя было остановить переход от ручного труда к машинному»

<…..>

«Вызов системе образования заключается в том, что для эффективного применения ИИ человеку требуется высококачественное, фундаментальное и желательно междисциплинарное образование. В противном случае не человек будет контролировать машину, а машина будет зомбировать человека, незаметно подсовывая ему свои ошибки».


Источник
👍14💯32🤔1
Эпохи


Биткойн в 2012 году: Прикольно, но в реальности не взлетит

Биткойн в 2017 году: Похоже, будет работать, но пока неясно как именно.

Биткойн в 2022 году: Неплохо работает, но кто ж такое разрешит!

Биткойн / Крипто в 2025 году: Давайте решать проблему с госдолгом США путем выпуска стейблкойнов!

——————————————

ИИ в 2022 году: Прикольно, но в реальности не взлетит

ИИ в 2024 году: Будет работать, но пока неясно как

ИИ в 2025-2026: Неплохо, но кто ж такое разрешит!

ИИ в 2027-2028: Давайте решать [Большую проблему] путем [как-то]

—————————————

Какая проблема и какой путь решения?
1👍64😁2
Когда-нибудь ты найдешь меня на полке и грустно будешь вспоминать: во времена-то были, рутинно разворачивая Лейкхаус и поправляя бронежилет
😢12😁74🔥2
Погружение в Лейкхаус! Офигенная новость, ребят – качаем, наконец, DWH! В следующую среду 13-го августа в 18:30 msk в Zoom состоится встреча с Алексеем Белозерским, руководителем группы BigData Services VK Cloud.

Тема встречи “Погружение в Лейкхаус: почему все о нём говорят”.

Обсудим:
- Ретроспектива развития хранилищ данных. Принципы и компоненты. Озера vs DWH. ETL vs event streaming. Витрины. Базовые классы компонент: базы и подтипы, распределенные хранилища, стриминг и процессинг, in-memory grids. HDFS/Hadoop, Spark, колоночные базы (Clickhouse, Vertica etc), Greenplum/Greengage, Exasol, Snowflake и тд и трансформация в современный стэк, Trino/Iceberg/S3 или in-memory processing, аналитические embedded-базы типа DuckDB
- Тренды, разделение compute/storage, in-memory вычисления. Почему сейчас старые методы не едут. Какие требования от современного бизнеса и почему старые ХД не удовлетворяют им: рост объемов, рост аналитической нагрузки, требования регуляторов в разных странах.
- Как это все расшивается на "новом" стеке из Лейкхауса - и почему об этом все говорят.

Встреча состоится в Zoom, в этот раз она свободна и для сообщества Devhands Club (слушатели наших курсов) и для всех остальных желающих принять участие в живой дискуссии, но обязательно нужно быть авторизованным в Zoom.

Topic: Devhands Open Sessions: Lakehouse deep-dive (A. Belozersky)
Time: Aug 8, 2025 06:30 PM Istanbul/MSK
Zoom: https://us06web.zoom.us/j/85409552470?pwd=mfmnt6aRvmllJB1iLx8Ws4sdiIqVD3.1
Добарить в календарь: https://addcal.io/e/k0dw9sgjk8ai

Приходите, приводите друзей!
2🔥9👍4😎3
Эх, гринплам. Расстраиваешь ты меня сегодня
👎1
Forwarded from Greenplum secrets🎩
На заметку
А вы знали, что не каждая транзакция откатывается при ошибке ?
Если pl/pgsql функция абортнулась из-за нехватки места
schema's disk space quota exceeded with name : public
то таблицы, которые были ей созданы не откатываются, а остаются как будто транзакция корректно завершилась.
😱9😢3🤓2👀2
А вы попробуйте!
😁22💯432
Друзья, не забудьте сегодня зайти на наш с Алексеем стрим!

Алексей - эксперт в области хайлоада, архитектуры сервисов, кубернетису и другим сложным и полезным вещам!

Будем говорить про аналитический хайлоад и конечно же, Лейкхаусы.

Вопросы напишите в комменты - обязательно постараюсь ответить (со скидкой на то что я в гостях).

Спасибо!
43😁1
Плейлист Lakehouse #3

Пополняем плейлист видео!

1️⃣ Разговоры на архитекторском - Вадим Белов (Х5)
Обсудили как крупные российские компании пришли к пониманю плюсов и минусов лейкхауса. Также Вадим проливает свет на процесс миграции данных на Lakehouse с классических аналитических систем.

2️⃣Стрим про развитие аналитических систем с Алексеем Рыбаком (DevHands)
Обсудили развитие аналитических систем, КХД и Озер Данных. И как мы пришли к жизни такой, что нам нужен Lakehouse
Youtube
VK Видео

Предыдущие плейлисты: #1 #2

Все видео по теме я выкладываю на ВК Видео в плейлист.

Подпишитесь на мой канал и сообщество ВК.
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1053
Всем мотивации с детской горочки.
😁13112👍2
Пример не самой удачной визуализации данных.

Скиньте в комментариях как бы вы улучшили
4😁14👏21
Мудрые люди говорят, что заработать 3 млн / год проще всего в ИТ, но заработать 15-20 млн - где-то еще.

Ставь двери, лечи зубы, делай мебель на заказ. Заодно не будет конъюктуры, где ставка повысилась, и бюджеты все съехали на 1-2 года вправо. Зубы болят всегда вот прямо сейчас.
💯14😁5🫡5👍211🤔1😱1
Классная книга, для всех кто строит команды, кому интересно и важно понимать как они развиваются. Для меня эта книга абсолютный маст хев:

🌟 📕 Лидер и племя (Tribal Leadership) Дейв Логан, Джон Кинг

Помогает понять где культура вашей команды сейчас и как с этого уровня двигаться к более здоровому. Много примеров и практических советов что делать чтобы перейти с одного уровня на другой.

Читается легко, буквально за пару вечеров.

Ну и кратко прикольная и простая типизация команд (племен):

1. Жизнь — отстой. «Все против всех»:
Характеризуется отчуждением и негативными взаимоотношениями. Люди на этом уровне чувствуют себя отчужденными
и разделяют мнение "жизнь – отстой”, считают, что в их неуспехе виновата сама жизнь и обстоятельства.

2. Моя жизнь — отстой.
Я — винтик, от меня ничего не зависит. Апатия, выученная беспомощность, работа строго по инструкции. Типично для бюрократичных или выгоревших команд. Каждый сам за себя:
люди на этом уровне больше плывут по течению и винят в своих неуспехах например руководителя, считают, что их везде ограничивают.

3. Я крут, а вы — нет. Все работают на звезду.
Классическая корпоративная гонка. Соревновательность, борьба за признание, подковёрные игры. Все заняты собой, вклад команды обесценивается.

4. Мы крутые
Командный дух, доверие, общее дело. Спорят по существу, делятся ошибками и радуются успехам других. Цель важнее эго. Каждый работает на то, чтобы у каждого все получилось: на этом уровне люди ориентированы на командную работу и поддержку друг друга.

5. Жизнь — прекрасна
Высокий смысл и вдохновение. Такие команды не просто работают, они верят, что делают что-то важное — и действительно меняют мир. Люди счастливы и ощущают удовлетворение от своей работы, создают прорывные идеи и наслаждаются жизнью.


Как думаете где ваша команда сейчас?

1️⃣ 2️⃣ 3️⃣ 4️⃣ 5️⃣
Please open Telegram to view this post
VIEW IN TELEGRAM
🏆92😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Технический вебинар по Айсбергу

Вы хотели технического мяса? Мы вам его даем!

🗓 3 сентября - вебинар по особенностям работы Iceberg.

1️⃣ Что именно вдруг поменялось в подходе, и почему про формат данных столько говорят.

2️⃣Как оно там под капотом.

И конечно же, живая демонстрация технологии в Облаке!

Приходите и приводите друзей!
Please open Telegram to view this post
VIEW IN TELEGRAM
212👍752