NEW BOT Телеграм, страница - 322111737

Архитектор Данных

@analyticsfromzero

1.45K subscribers

201 photos

13 videos

2 files

160 links

Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky

Download Telegram

About

Blog

Apps

Platform

Архитектор Данных

1.45K subscribers

Архитектор Данных

Media is too big

VIEW IN TELEGRAM

00:00 - Ода продукту RedPanda.
05:46 - RedPanda Iceberg Topics. Topic-Table интеграция
08:21 - StreamHouse - что это?
15:58 - StreamHouse as a Service
19:28 - Техническая сторона интеграции Topic-Table, Redpanda-Iceberg

8❤5👍3

1.01K views07:20

Архитектор Данных

Архитектор Данных

Смотрим Iceberg Summit 2025 - Часть 2 Сегодня видео с громким названием Fully managed Streaming Data Lake in the Iceberg, но именно здесь я сэкономил вам время, потому что 2/3 доклада это маркетинговый питч продукта RedPanda. RedPanda - интересный продукт…

Вдогонку немного старая, но вряд ли утратившая актуальность статья про RedPanda

https://habr.com/ru/articles/746138/

Основной вывод - в скрине. Сервис из-за своей архитектуры требует определенных тепличных условий для работы. В то время как та же Kafka неприхотлива весьма.

Почему речь про Scylla - потому что RedPanda построена на той же сишной архитектуре Seastar

🔥86❤2👍1

1.08K views07:56

Архитектор Данных

О, это мы можем, знаем практикуем.

Считайте, что я дата-сомелье

1😁27🍾10❤3

992 viewsedited 09:40

Архитектор Данных

Архитектор Данных

Продолжаем итоги года. Тут меня жарит нейросеть, причем по делу. 🔥

Нашел нейросетку подобрее

Да, так значительно лучше 🐈

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13😁3

1.1K views11:46

Архитектор Данных

Люди с песьими головами или эта ваша аналитика глазами CTO

Расскажу об одном разговоре с моим тогдашним СТО, который многое для меня сделал понятным.

СТО был прекрасный, на 146% на своем месте. Трудились мы в небольшой компании, которая разрабатывала подписочный SaaS продукт. Главная задача СТО в такой компании - поддержание продукта работоспособным и быстрая выкатка новых фич, которые растят ARPU.

И тут появляется аналитика. Далее - описание процесса из глаз СТО, практически цитата.

Приходят какие-то люди с песьими головами. Говорят что-то непонятное, что-то просят, и довольно много. Я честно, не понимаю в этих ваших КХД, ETL, Data Governance, и почему все так сложно и дорого. Я другими вещами занят, у меня SLA продукта должен быть 100%, потому что каждое падение это отток подписок. Мне выкатки без багов нужны, у меня беклог на 4 года вперед, а вилки на разработчиков низкие, потому что мы маленькие и живем скромно.

Объясни, пожалуйста, что вам надо на уровне разумного минимума, чтобы ваши хотелки были удовлетворены, и ко мне не приставали больше с этой ерундой.

Договорились мы в итоге, что по минимуму у нас будет а) Postgres на 5 ТБ, так как в компании есть компетенции постгресовых ДБА, б) сервисы для Airflow, Jupyter для ETL, Аналитиков и простого BI (!), в) небольшая квота DevOps+DBA для поддержания и развития этого стека. С тем и прожили следующие 2 года, до тех пор как команда аналитиков не стала 20 человек, и появились некоторые бюджеты на более взрослые системы и решения.

«Люди с песьими головами» остались со мной навсегда.

Вы, бывает, варитесь в своем пузыре, вам кажется, что все понимают и разделяют ваши проблемы. Метрики-отчеты и пайплайны, а теперь и ЛЛМ, очевидны и понятны в своей ценности - кажется вам. Но для большинства ваших технических коллег вы непонятные Псоглавцы (Кинокефалы). А главная ваша ценность глазами высоких менеджеров - это «чтобы от меня отстали с этой ерундой».

❤14👍85👏3

1.7K views09:16

Архитектор Данных

Рубрика - Вредные советы

✍18😁12🔥9❤1

1.23K views10:24

Архитектор Данных

В Spark 4.1 появлся ... Airflow

В документации версии Spark 4.1-Preview появились так называемые Spark Declarative Pipelines (SDP)

На борту:

1️⃣ Несколько видов датасетов: Материализованные, Стриминговые, Временные
2️⃣ Пайплайн как объект. Описывается через YAML файл с SQL, Python кодом и необходимыми конфигами Спарка. Также объявляется каталог (Hive, Iceberg), с которым можно взаимодействовать и в который складывать результаты.
3️⃣ Команда spark-pipelines init с интерфейсом и аргументами как у Spark Submit. Отдельная команда spark-pipelines run.

Удобство

Пример нового кода на PySpark, который читает Kafka топик и складывает данные в таблицу в каталоге. По сути это декларативное описание (не как-сделать, а что-сделать) а-ля DAG.

from pyspark import pipelines as sdp

@sdp.table
def ingestion_st():
return (
spark.readStream.format("kafka")
.option("kafka.bootstrap.servers", "localhost:9092")
.option("subscribe", "orders")
.load()
)

К объявленной таким способом таблице можно обращаться дальше по пайплайну.

На SQL и того проще

CREATE STREAMING TABLE basic_st
AS SELECT * FROM STREAM samples.nyctaxi.trips;

Или пример с несколькими синками

-- create a streaming table
CREATE STREAMING TABLE customers_us;

-- add the first append flow
CREATE FLOW append1
AS INSERT INTO customers_us
SELECT * FROM STREAM(customers_us_west);

-- add the second append flow
CREATE FLOW append2
AS INSERT INTO customers_us
SELECT * FROM STREAM(customers_us_east);

Осталось разобраться, как в этом всем провязаны семантики доставки (exactly-once, at-least-once), и куда это все полетит при смене схемы источника (Dead Letter). И понять, как устроить мониторинги и алерты работающих или сломавшихся пайплайнов.

Но ясно, что в четвертом Спарке сделать такую операцию как стриминг подхват из топиков Кафки в таблицы Айсберга будет сильно проще, чем сейчас. А то и вовсе - декларативно. Что не может не радовать.

Насладиться примерами можно в офф доке превью версии

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🔥97

1.27K viewsedited 09:45

Архитектор Данных

Архитектор Данных

В Spark 4.1 появлся ... Airflow В документации версии Spark 4.1-Preview появились так называемые Spark Declarative Pipelines (SDP) На борту: 1️⃣ Несколько видов датасетов: Материализованные, Стриминговые, Временные 2️⃣ Пайплайн как объект. Описывается через…

Есть любопытный Q&A по фиче Spark пайплайнов.

Подписчики мне справедливо попеняли, что речь идет не про Airflow DAG, а скорее про декларативное описание моделей и потоков данных, что больше похоже на DBT, SQLMesh.

Как раз окрестратор в этом дополнении предельно простой - из одной команды spark-pipeline run my.yaml. Полноценный шедулер (пока) никто не делает. Хотя в будущем, полагаю, появится какой-то аналог dbt run с его селекторами.

На философском уровне, как также верно отметили комментаторы, спарк постепенно из библиотеки, которая запускает Map-Reduce в памяти, превратился в неимоверный комбайн, который разве что кофе не варит. Наверное, это судьба всех успешных фреймворков.

Я честно говоря, жду когда появится альтернатива, которая будет себя позиционировать как SimpleSpark. Или DuckSpark 😁

Если знаете такую, напишите в коментах.

11❤7👍6😁2

1.12K views12:43

Архитектор Данных

Forwarded from StarRocks and modern data stack

Ехал метастор через метастор, видит метастор в метасторе метастор...

Одни очень большие ребята рассказали, что активно смотрят на Apache Gravitino. Плохого же не посоветуют, вот и я решил посмотреть.

А получается у нас на руках каталог каталогов, через который можно управлять метаданными во всем своем зоопарке. Имея на руках HDFS+Spark, StarRocks, Vertica (jdbc) и MySQL, можно из одного места раскатывать миграшки, управлять доступами и даже работать (если есть коннектор). Интересно как реализован линейдж, но мне кажется, что это не совсем тема каталога.

Идея интересная, наверное для больших ребят напрашивается. У нас сейчас 4 сервиса управления доступами (причем довольно разных), только миграции раскатываются через один сервис и однотипно. Аудит - не уверен что в этой штуке реализован корректно.

Подумал, что можно наконец выкинуть из стека Apache Ranger, но нет - это только прослойка для него.

Очень неоднозначная штука, на мой взгляд, и профит от нее для платформы надо внимательно рассматривать под микроскопом.

Видите пльзу для себя, затеялись бы внедрять? :)

🤔11🤯44

1.03K views17:40

Архитектор Данных

StarRocks and modern data stack

Ехал метастор через метастор, видит метастор в метасторе метастор... Одни очень большие ребята рассказали, что активно смотрят на Apache Gravitino. Плохого же не посоветуют, вот и я решил посмотреть. А получается у нас на руках каталог каталогов, через который…

Meta[store] Mesh - ловите новый термин 😁

😁11❤21

1.07K views19:36

Архитектор Данных

Хозяйке на заметку.

Если нейросеть тупит, просто повторите промпт еще разик

Дата канальи — про «специалистов» в данных / ML / AI

Наткнулся на интересную статью. Это буквально самый тупой (и одновременно гениальный) промпт-хак.

Исследователи из Google Research выяснили, что если нейронка тупит, не надо придумывать сложные цепочки рассуждений или молиться духам машины. Нужно просто…

😁9👍3❤2

923 views12:50

Архитектор Данных

Forwarded from Архитектор Трэша - daily

😁20💯5😎3❤1

772 views10:41

Архитектор Данных

DataFusion Comet

Продолжаем разбор интересных докладов.

Сегодня - доклад с Iceberg Summit 2024 про движок Comet от Чао Сана (Chao Sum) Staff Engineer OpenAI

Comet - переписанный на Rust движок вычислений для Spark с векторизацией (SIMD). Включается как Drop-In Replace, если не может по какой-то причине, то сам фолл-бечится на Scala. В итоге получаем скорость Rust, не теряя богатство экосистемы Spark и его API. На бумаге.

В докладе неплохо разобрано, как выглядит с точки зрения Спарка простой запрос. Потом добавляем к нему векторизацию.

Видео c таймкодами ниже в канале или на ВК. Оригинал Youtube - без таймкодов.

Ранее в разборах:

Часть 1 - Разбор нововведений Iceberg v3
Часть 2 - Streaming Data Lake - Redpanda

------------------------------------
------ Архитектор данных -------
------------------------------------

Iceberg Summut 2024 - DataFusion Comet - Chao Sun, Staff Engineer OpenAI

Comet - переписанный на Rust движок вычислений для Spark с векторизацией (SIMD). Включается как Drop-In Replace, если не может по какой-то причине, то сам фолл-бечится на Scala. В итоге получаем скорость Rust, не теряя богатство экосистемы Spark и его API.…

👍74❤3

904 views12:25

Архитектор Данных

Media is too big

VIEW IN TELEGRAM

01:15 - Улучшаем производительность нативного движка Spark
05:10 - Как исполняется код на Spark под капотом и его узкие места
08:45 - Векторизованная модель исполнения кода
10:39 - Comet - движок поверх Dafafusion + Arrow
27:10 - Интеграция Comet - Iceberg
31:36 - Как включить векторизованный движок при чтении Iceberg-Parquet

8❤5👍3

1.06K views12:52

Архитектор Данных

Архитектор Данных

DataFusion Comet Продолжаем разбор интересных докладов. Сегодня - доклад с Iceberg Summit 2024 про движок Comet от Чао Сана (Chao Sum) Staff Engineer OpenAI Comet - переписанный на Rust движок вычислений для Spark с векторизацией (SIMD). Включается как…

В коментах вспомнили отличный доклад на Smart Data 2025. Ребята измерили, как на практике работает Comet (Rust), Velox (C++) движки Spark'а.

Слайды тут:
https://smartdataconf.ru/talks/8e248260514840208beaf9cf90cc0778/?referer=%2Fschedule%2Ftable%2F

На картинке спойлер, но посмотрите слайды, там больше деталей. Видео пока что за пефволом

❤75🔥2👍1

988 views14:58

Архитектор Данных

Архитектор Данных

Есть любопытный Q&A по фиче Spark пайплайнов. Подписчики мне справедливо попеняли, что речь идет не про Airflow DAG, а скорее про декларативное описание моделей и потоков данных, что больше похоже на DBT, SQLMesh. Как раз окрестратор в этом дополнении предельно…

На тему альтернативных движков Spark - офигенный доклад со Smart Data 2025 от Евгения Глотова из Navio

Видео пока что за пейволом, но слайды (70 слайдов) можно посмотреть тут.

Спойлер - Евгений фанат Sail

https://github.com/lakehq/sail

9❤4👍3

1.02K views04:56

Архитектор Данных

Напомню и про свой доклад

https://vkvideo.ru/video-164978780_456239739

Внутри прожарка формата Iceberg - как оно устроено и почему именно так. Как получается (почти) транзакционная система хранения данных при хранении в нетранзакционном S3.

Во второй части короткий воркшоп.

Есть текстовая версия на Хабре. Статья вошла в топ хабрастатей от ВК 2025 года. Даже медальку в интранете дали 🏅

Для тех, кто хочет познакомиться поближе и пощупать технологии Iceberg, Lakehouse, DBT руками - приглашаю на курс. Стартуем 5 февраля

Больше, чем просто данные в S3: Iceberg как основа архитектуры Next-Gen КХД

Регистрируйтесь на вебинар, на котором мы разберем, как Apache Iceberg превращает Data Lake в полноценный Data Lakehouse — с ACID-транзакциями, эволюцией схем, time-travel, snapshot isolation (через Spark/Trino). Вас ждет теоретическая часть, воркшоп и ответы…

👍12❤42🔥1

1.14K viewsedited 11:09

Архитектор Данных

WB Track - уже видели?

Теперь можно отправить посылку через логистику Wildberries. Адресат заберет ее из своего пункта ПВЗ.

https://track.wildberries.ru/

Вполне логичный шаг, когда есть логистика такого масштаба. Заодно WB окучивает селлеров, которые не работают через маркетплейс, но которым нужна доставка товара до клиентов с развитой сетью и сервисом. Плюс к тому, у маркетплейсов теперь будет большая проблема в содержании сети ПВЗ из-за повышения налоговой нагрузки на малый бизнес. ПВЗ - армия на марше, которую надо кормить, любая дополнительная копеечка сгодится.

Молодцы, что сказать.

Ну а мы можем оценить - какой объем данных генерирует доставка 1 млрд посылок за год

💾

💾

💾

💾

💾

Please open Telegram to view this post

VIEW IN TELEGRAM

track.wildberries.ru

WB Track - обменивайтесь посылками через пункты выдачи

9❤3👍3👏1😁1

1.07K viewsedited 06:26

Архитектор Данных

Частое обсуждение архитектуры заказчика:

- У вас тут паяльник воду кипятит. Это неудобно, лучше взять чайник.
- Нам еще гвозди надо забивать. Пробовали чайником - ломается, а вот паяльник подошел!

И смотришь потом на самописный BI, который достает данные из ElasticSearch, и не знаешь, как подобрать аргументы.

😁294💯2❤1

1.69K views17:10

Архитектор Данных

Мы или не мы?

💯6

818 views17:40