Архитектор Данных – Telegram
Архитектор Данных
1.08K subscribers
142 photos
8 videos
2 files
113 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Также посвящается внедрившим API LLM в боты суппорта компаний.

Также надеящимся, что Алиса - грамотный ассистент для домашней работы. Как в романе "Алмазный Век" Нила Стивенсона, ага.
🥴5
Архитектор Данных pinned «Также посвящается внедрившим API LLM в боты суппорта компаний. Также надеящимся, что Алиса - грамотный ассистент для домашней работы. Как в романе "Алмазный Век" Нила Стивенсона, ага.»
Вебинар по Трино и Лейкхаус

Кто пользуется VK Cloud, уже получил приглашение на вебинар по почте.

В телеграме будут рассылки чуть позже

Встречаемся 11 февраля вечером.
🤩52🔥2
Алгосики

Вечная тема в ИТ и (около-)разработческих кругах. Нужны ли? Правильно ли делать алго-секции если ты чуть меньше Яндекса/Авито/Тинька?

Очередной пост у Киры Кузьменко (осторожно много букв!) поднимает тему.

Мое мнение - алгоритмы на собеседованиях в ИТ - это явление из средневекового цеха. Многие ИТ-ники очень стремятся выделить себя в отдельную касту или "цех". Претендуешь попасть в нее - докажи, что ты можешь общаться с нами на равных. Только если разврнешь список рекурсией, мы согласимся что ты не чушпан не подведешь высокое звание ИТ-шника.

А как без алгосиков, скажут иные.

Ловите, к примеру, такой лайвхак.

Первый собес. Находишь тему, которую наш герой а) точно не знает и б) точно нужна на позиции. Глубоко в нее копаешь и четко и прозрачно говоришь - вот это надо. Во-первых, видишь поведение человка, когда он не знает ответ на вопрос. Выкручивается ли? Бегают ли глазки в гугл/ЧатГПТ в соседней вкладке? Уже полезно.

Во-вторых, на следующей встрече повторяешь этот же вопрос. И смотришь, есть ли дельта в знаниях. Отсюда сразу видна тяга/способность к изучению нового и быстро. И мотивация попасть конкретно к тебе.

Придумал это, когда надо было из 200 резюме выбрать себе 2 падаванов. Работает.
6
Мой топ алго собеса.

В очень маленькой компании на позицию дата инженера. Пришел разработчик и задал литкод - что-то вроде найти три наименьших расстояния в массиве чисел без сортировки.

Только после решения такой задачи человека можно было допустить к перекладыванию данных из Монго в Кликхаус.

Я не справился. Потому что не люблю литкод.
👍11😁3
Про DLH и Trino. Статьи и вебинар 11.02

Привет!

Собрали пятничный #дайджест про Data Lakehouse и Trino. Читайте статьи и приходите на наш вебинар.

🔹 Нужна ли нам Lakehouse архитектура?

🔹 Быстрая обработка данных в data lake с помощью SQL

🔹 Платформа данных в хранилище Магнит OMNI

🔹 Как устроен massively parallel processing (MPP) в Trino

🔹 Почему Trino такой быстрый: динамические фильтры

🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

Вебинар «Поднимаем Data Lakehouse на основе Trino в облаке»

11 февраля в 17:00 мы разберем, что такое Data Lakehouse. Узнаем, как эта архитектура объединяет преимущества DLH и DWH, чтобы упростить управление, удешевить хранение и ускорить анализ данных из различных источников в одном месте.

На примере в лайв-режиме покажем различия в стоимости и скорости работы DLH и DWH.

Ведущий — Алексей Белозерский, руководитель группы BigData Services VK Cloud.

Подробности и регистрация

Хорошего чтения и приятных выходных!

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #Data #AI
🔥32👍1
DataLakehouse 11.02.pdf
1.8 MB
Всем привет!

Презентация со вчерашнего вебинара.
🤝8👍432
Всем ли нужно заниматься данными?

Нередко заказчики спрашивают что-то подобное. Что, прямо в каждой компании должен быть стек обработки [больших] данных?

Сложилась аналогия.

Всем ли нужно заниматься спортом?
Нет, не всем. Можно прожить вообще без этого и быть довольным.

Ведет ли занятие спортом к улучшению жизни?
Разумеется, ведет!

Требует ли занятие спортом дополнительных вложений денег/времени/сил?
Конечно, требует.

Вот вам и уравнение. И с данными точно так же.
👍9🔥31
Про Trino — статьи и видео

Привет!

На вебинаре во вторник мы рассказали про Trino.

Смотрите вебинар

Самое время вспомнить наш летний дайджест, посвященный этой теме.

Статьи на русском

🔹 Почему Trino такой быстрый: динамические фильтры

🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

🔹 Как устроен massively parallel processing (MPP) в Trino

🔹 Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора

Статьи на английском

🔹 Trino versus Apache Spark

🔹 Deploy MinIO and Trino with Kubernetes

🔹 The Best Data Transformation Tools for Trino

🔹 Use Trino with Dataproc

🔹 Enabling Highly Available Trino Clusters at Goldman Sachs

🔹 Trino Architecture

Видео

🔹 Как пересесть на Trino после Vertica: реальный кейс Авито

🔹 Роль Trino в Тинькофф: использование встроенных возможностей, собственные доработки и future work

🔹 Как устроено выполнение SQL-запросов в Presto/Trino

🔹 Trino Fest 2024 — 13 докладов

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #trino
👍8🫡41
Huge Data

На этой неделе общался с боссами дата офиса ВК. Господа управляют всеми данными 3 соцсетей группы ВК, а также ВК Видео, РуСтора, и многих десятков других бизнес-юнитов группы. Масштабы впечатляют. Счет идет на сотни петабайт полезных данных, а планы - на многие сотни петабайт. Кластера из тысяч нод под 100% нагрузкой.

Ни в какие хадупы это уже не влезает. Без всяких шансов.

И я задумался. Есть такая штука как BigData. У нее есть много определений, таких как 3-V, или «нечто, что бесполезно даже пытаться уместить на одной машине». Там правят бал системы наподобие Hadoop, Greenplum, Vertica, Trino. Системы с шардированием и горизонтальным масштабированием из-коробки, которые можно проскейлить от 10 до 200 узлов, не меняя подходы к управлению данными. Большинству компаний этого хватает.

Но в какой-то момент начинается HugeData. По аналогии, это то, что бесполезно даже пытаться поместить в один Хадуп. Как быть, если есть планы на 100 ПБ в одном кластере? Что если бизнес видит в этом пользу?

Можно подумать так. Допустим в России 10к платформ данных. То есть 10 тысяч компаний, которые занимаются обработкой данных много и профессионально. Крупный бизнес. Топ-2% из них это BigData - те, кто ставят себе большие планы на развитие, которые видят ценность накопить 50 или 1000 ТБ. Получаем 200 платформ. Топ-2% от этих топ-2% это и есть HugeData. Всего 3-5 платформ данных, которые метят в экзабайты.

Интересно, какая статистика в других странах? Кто знает, как в Европе, США, Китае? Есть ли в Японии или Германии компании с данными такого размера и команды, которые берутся за такие задачи?
🤔9👍41
Депрессия в профессии

Продолжаю получать по разным каналам инсайды о сокращениях в проектах, связанных с данными. Кампании подбивают финансовые результаты года и сокращают бюджеты на ИТ. Высокие процентные ставки выедают маржу, продажи не растут, аренда и персонал дорожает.

«Если у вас выполнение выручки 70%, то и бюджет на все 70%!» - один директор ритейла из моего сезона 2014/15 года.

Данные при всей своей полезности, не являются критичной статьей затрат, и идут под нож даже раньше многого другого.

Срезали бюджет - приходится корректировать планы развития. Где-то стопать процессы и удалять данные. Где-то решения принимаются более радикальные вплоть до расформирования дата-офиса целиком. В моменте имеем депрессию в профессии, надеюсь, что локальную.

Облако исторически было в том числе ответом на подобные кризисы. Если альтернатива: сжать облачный КХД или уволить людей, то лучше иметь такой выбор, чем не иметь его. Он-прем КХД на Оракле или Гринпламе само не сожмется и выбора не будет. Еще проще, если используется ЛейкХаус. Можно потушить отдельные кластера Compute или перевести режим хранения данных в S3 на архивный. Так можно сохранить и команду, и данные, которые тоже актив.
😐5😱43🤔2🙈2
Богатыри - не вы!

Мы - люди двадцатых годов, золотого века данных. Мы могли:

👨‍💻 Писать SQL запросы полностью в текстовом редакторе. А потом смотреть глазами текстовые (!!) планы и оптимизировать их.

📈 Делать BI отчеты вручную в редакторе.

🏋️‍♀️ Разрабатывать пайплайны без всякого LowCode. Даже делать целые библиотеки для этого. А потом вручную искать, откуда взялись дубли в данных и править это.

🔬Принимать бизнес решения, глядя глазами на графики без генератора готовых инсайтов.

А еще люди 20-х наслаждались атмосферой невероятной свободы, когда ИИ еще не гоняли поминутно кожаных мешков по процессам!

Все мы живем в чьей-то седой древности. Все мы наслаждаемся «золотым веком» чего-то. Все мы чьи-то «Богатыри - не вы!» и чьи-то деды с перфокартами.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14😁52
Берегите свои БД от доступа. Закрывайте сетевыми экранами!
Forwarded from ИнтеркотыреВ
UPD
В предыдущем посте про Deepseek:

Я был не прав относительно инновационных архитектурных решений платформы, которая обеспечила невиданную ранее производительность и эффективность. Вышли обзоры нескольких уважаемых экспертов, действительно молодцы. Это сделала небольшая команда молодых китайских выпускников лучших технических университетов мира. А это давно не новость, что Китай отправляет лучшие мозги учиться по всему миру. Как Петр I в свое время…

Зато я был прав что в отношении к безопасности данных и прочих правовых вопросах, сервисы, расположенные в Китае не очень полезны для здоровья:

«Wiz Research обнаружила "DeepLeak" - общедоступную базу данных ClickHouse, принадлежащую DeepSeek, раскрывающую высокочувствительную информацию, включая секретные ключи, сообщения в обычном текстовом чате, данные серверной части и журналы….
Это означало, что любой мог получить доступ к логам, содержащим реальные сообщения чатов, внутренние секреты, сервисные данные и, возможно, похищать данные, а также повышать привилегии внутри сервера»
👍93👏1
3 основных кейса применений Лейкхаусов

По наблюдениям, сегодня доминируют эти три основных кейса внедрения домика у озера.

1. КХД+. У нас уже есть достаточно развитое хранилище данных. У нас есть команда в 30-50 человек специалистов по данным. Мы хорошо умеем извлекать из них ценность. И вот у нас появляются данные, которые все еще ценные для бизнеса, но которые уже нецелесообразно загружать в КХД. Логи, события, кликстримы. Нужно решение, которое сохранит простоту и привычность доступа к данным, при этом не разорит нас. Тут и появляется гибко масштабируемый ДатаЛейк[Хаус].

2. Next Gen DataLake. И здесь же миграция с хадупа. Вы не поверите, сколько сейчас хадупов на бесплатном Хортоне, который застыл в развитии в 2016 году. Куда-то надо это везти в перспективе. Менять старый хадуп на более новый - ну такое, это все же очень архаичная система. А что есть современнее? (Желательно не очень дорогое)

3. Технологии+. Некоторые не хотят Мерседес, некоторые фанаты Теслы. Причем, с пониманием, что Тесле нет того и этого, и вообще как машина она, мягко говоря, уступает. Но вот хочется быть на острие прогресса.

Стыдливо опускаем кейс номер три-с-половиной, где нам всем очень хочется поиграться с новой технологией и записать ее себе в CV.
👍8😁54
#книжная_полка

Статистика для всех (Сара Бослаф)

📖 Описание. Введение в статистику и необходимую для неё математику с примерами из реальной жизни.

(продолжение в комментариях)
⬇️⬇️⬇️
6👍3🥰3
Освежаем статистику.

Без статистики никуда. Даже продактов уже спрашивают на собесах, что такое p-value и как правильно интерпретировать результаты АВ-теста.

По крайней мере, я спрашиваю. 😄

В репосте обзор на книгу. И там же в канале более научпопная "Статистика и Котики".
👍732
Данные как "секретный соус" b2b сервиса

На днях смотрел интервью, которое заставило меня задуматься. Оно было не про данные, я бы более того сказал: основная тема диалога довольно далека от ИТ и всех этих наших дата-дривенов.

Разговор был про бизнес в области доставки еды. Кроме всех знакомых сервисов Яндекса и Сбербанка существует множество более мелких агрегаторов. Это и естественно: крупный поставщик работает с крупными сетями, мелкий и региональный - с местными более мелкими или нишевыми. На видео ребята из небольшого регионального агрегатора доставки Чиббис.

А заставило меня задуматься вот что. Вот у нас есть агрегатор доставки. Его основной клиент - ресторатор, это B2B-сервис в чистом виде. Как сделать клиенту агрегатора хорошо?

Ребята открыли то что они называют "Академией Чиббис". Дело в том, что средний ресторатор не слишком искушен в вопросах управления своим предприятием. Там очень много молодых и начинающих предпринимателей, для которых это первый бизнес в жизни. В то же время агрегатор кровно заинтересован в том, чтобы у них все получилось, и их клиент-ресторан не разорился в первый год.

Вот примеры инсайтов Академии, которыми поделились владельцы.

Ты закрываешься слишком рано. Пик заказов приходится на вечер, в 9 вечера заказы вполне себе еще идут. Закрывать кухню в 10-11 вечера, а не в 9 вполне экономически эффективно.

У тебя неправильные промо. Ты лучше вместо скидки в 500р рублями дай блюдо в подарок за 500р. Для клиента это по-прежнему подарок ценностью в 500р, но для ресторана это затраты в районе 150-200. Плюс согласно исследованиям ретеншена и вовлеченности, клиенты, привлеченные подарком, остаются дольше и приносят больший CLTV.

Я ловлю себя на мысли: это же по сути сервисный data-driven!

Сами герои это назвали их "секретным соусом". Ну знаете, когда все бургеры одинаковые, но один вот чем-то лучше. Вот так - ненавязчивая сервисная аналитика - серкетный соус b2b продукта.

Если вы делаете сервисный софт для общепила, парикмахерских, автосервисов, гостиниц, и вы видите их транзакции, действия клиентов и персонала - предложите клиентам проанализировать их данные! Дайте им инсайты и вы получите секретный соус в свое меню!

В конце концов, поднимите опенсорсный BI (SuperSet, DataLenz) и берите деньги на отрисовку дашбордов в нем!

Интервью тут.
👍9😁32
Преподносим аналитическую инициативу правильно

Все мы хотим получить проекты поинтереснее и посложнее! (Мы ведь все хотим?)

Как донести свою инициативу до потенциального ЛПР? Для этого тренируем упражнение "Разговор в лифте". У вас 1 минута: объясните высокому ЛПРу как ваша инициатива поможет ему решить его проблемы. Просто, да?

Неиссякаемая сложность простоты. Что нужно для успеха?
1. Понимать, о чем именно болит голова у этого конкретного Директора.
2. Иметь компетенции для решения задач.
3. Иметь репутацию человека, способного взять на себя решение задач такой сложности и довести ее до конца.
4. Уметь рассказать за 1 минуту и пользу, и общий ход решения, и нужные вам для этого ресурсы, развеять риски и типовые возражения.
5. Иметь под рукой более детальный план, чтобы отправить на стол Директору, пока история не остыла.

Берем и тренируем ваши рассказы на тему "У нас так плохо с продажами. Давай я сделаю комплексный дашборд по отработке лидов". "Я знаю, как по показателям спрогнозировать в середине квартала риски невыполнения плана". "Чат-бот на опенсорсной LLM-ке улучшит показатели саппорта, у меня как раз есть демо-стенд!"

Но будьте готовы что
1. Ваше предложение не сработает с первого раза. И через полгода вы скажете: а помните, я предлагал вот это и вот так. Предложение еще в силе.
2. Предлагаемое вами решение находится на чьей-то полянке, и со стороны владельца полянки можно встретить организованное сопротивление инициативе. Будьте готовы поделиться с другими достигнутыми успехами и даже полностью отдать их - все ради п.3 "Репутация".
3. Вы просто не угадали с потребностями и моментом.

Мы аналитики. Нередко ЛПР плохо понимают, что могут данные в части улучшения процессов. Инициативы в наших головах возникают часто, но мало кто умеет их правильно презентовать. Если научиться делать правильно, будет эффект "А что так можно было??" и вы будете ее (со-)автором.

Тренируйте (дома перед зеркалом) упражнение "Разговор в лифте". Имейте загашничек из хороших идей, актуальных для разных ЛПРов. Держите их при себе до подходящего момента.
👍93😁1👌1