Data Engineer – Telegram
Data Engineer
439 subscribers
167 photos
3 videos
105 links
Дата-инженерия в схемах и мемах

По всем вопросам — @mobiledeveloper_bot
Download Telegram
#заметкинаполях

Начал читать "Data Mesh в действии". Выглядит так, что лучше "Data Mesh" совсем никак не переводить, чем переводить как "сетка данных".

Звучит ужасно, как по мне...

Где-то на одном уровне с ОАГ и "хранилищем ключевой ценности".

#datameshinaction
👍4
#заметкинаполях

«Чуечка» моя меня редко подводит. Книгу, упомянутую в предыдущей публикации, однозначно, брать стоило, хотя я и прочитал пока лишь пару абзацев из первой главы. Ибо авторы четко задекларировали свое намерение сделать упор на социальную составляющую и уделить основное внимание «людям, процессам и организациям».

А технологии, говорят, можно брать любые, «на которых функционирует большинство современных систем работы с данными»

Посмотрим, что у них в итоге у них получится.

#datameshinaction
🔥4
#заметкинаполях #datameshinaction

«...мы называем такую сеть — сеткой данных...»

Вот ради избежания разрывов головного мозга и других важных человеческих органов при чтении подобных фраз я и стою на том, чтоб не переводить Data Mesh таким образом…
👍5
#заметкинаполях
#datameshinaction

Занимательный факт — авторы дают свое определение Data Mesh, «сформулированное с точки зрения практичности и конечного результата».

Data Mesh — это парадигма децентрализации. В ней децентрализуются владение данных, их преобразование в информацию, а также их обслуживание. Цель — повысить извлечение ценности из данных, устранив узкие места в потоке конверсии данных в ценность. Понятие Data Mesh опирается на четыре принципа, которые помогают эффективно масштабировать работу с данными: владение доменом, представление данных как продукта, федеративное вычислительное управление и самообслуживаемая платформа данных. Реализации могут различаться по объему и степени использования каждого принципа.

Первое и последнее предложение в этом определении являются ключевыми, на мой взгляд. Первое максимально просто и емко и напоминает легендарное определение одного из направлений в рок-музыке, данное ВИА Тараканы! («Панк — это слово из четырех букв.»). А последнее делает бессмысленными споры на тему «чистоты Data Mesh» и оставляет простор для импровизации.

Сами авторы так и пишут: «Ценность заключается в децентрализации, а ключевые принципы — это рекомендации, которые помогут правильно осуществить эту децентрализацию»
👍3
#пятница #заметкинаполях

В моем октябрятском детстве говорили: «Критикуешь — предлагай». Тем более, что я не отношусь к той категории людей, которые считают русский язык бедным, невыразительным, недостойным, чтобы термины иностранные на него переводить (мама - филолог, ага).

На мой взгляд, гораздо лучшим, чем «сетка данных», импортозамещенным вариантом термина Data Mesh будет «пасека данных». Пасечник предоставляет удобную платформу самообслуживания, внутри которой команды «децентрализованно самоорганизуются» и «пилят» свои продукты.

Не дословно, конечно, но суть отражает. К тому же в случае успеха, можно будет пропеть голосом Александра Ливера (обязательно!): «А у меня есть пасека!»

Всех с пятницей!
😁8👍2
Forwarded from DataJourney
Новости AWS

Amazon на днях представил новый тип bucket: «Table bucket», который заточен под хранение Iceberg. Выходит, что Iceberg всех победил и гигант рынка предлагает связку Athena (Trino/Presto/Spark) с Iceberg на S3 как один из вариантов быстрого, надежного, хранилища.

Ребята пишут, что новый тип хранения прячет от пользователя рад операций, которые нужно выполнять при обслуживании хранилища в такой конфигурации. Такие как:
- объединение (compaction): ряд небольших файлов сливаются в один для увеличения скорости обработки
- управление снимками (snapshot management): обычная ротация, старые снапшоты помечаются на удаление и чуть позже удаляются
- очистка (Unreferenced File Removal): автоматическое удаление неиспользуемых файлов.

Исходя из вышеуказанного, выходит, что новый тип позволит как снизить нагрузку на чтение, так и сэкономить на стоимости хранения.
🔥4👍1
#заметкинаполях #datameshinaction

Прекрасная метафора: «Однако уже более десяти лет проблема «похмельного синдрома» от увлечения большими данными отравляет жизнь компаниям любого масштаба…»

Сам когда-то писал про «иглу больших данных».

Отсюда следует, что данные - это не новая нефть, а новый наркотик, вызывающий мгновенное привыкание, чувство эйфории, безопасности и полного контроля над происходящим…

И с отсутствующей пока концепцией «умеренного потребления»…
👍5
#заметкинаполях #datameshinaction

Распечатать и в рамочку под стекло:

«Если вам не удается найти актуальный бизнес-мотив, чтобы переходить к Data Mesh, на этом можно сразу закончить
👍5
#заметкинаполях #datameshinaction

Еще одно важное замечание:

«Data Mesh легче внедрять в компаниях, в которых программное обеспечение разрабатывается в тесном сотрудничестве со специалистами по данным».
👍5
#заметкинаполях #datameshianaction

«Чтобы заложить основу управления данными нужно достичь двух задач в рамках MVP:

1️⃣ Разработать заявление о ценностях, связанное с политиками и правилами управления данными

2️⃣ Задать первоначальные правила и политики, которые будут управлять центральной платформой и продуктами данных.»


Наличие этих двух пунктов, описанных авторами книги, отличает исследованные мной успешные проекты по внедрению Data Mesh от неудачных. И именно с них я начал новый проект, в котором слова «Data Mesh» пока не упоминаются. Долго шел к осознанию сего факта, а мог бы просто в книжке прочитать, если б раньше нашел ее…
Пятница 13 - лучшее, пожалуй, время для публикации новой статьи
👍5🔥2
Нашел интересный, на мой взгляд, инженерно-данный ресурс аккумулирующий в себе разные полезности. Новичкам особенно рекомендасьон.

https://www.dataengineers.pro/
👍32
#datameshianaction

Заканчиваю чтение «Data Mesh в действии», а значит, время пришло подводить итоги. Книга, однозначно, стоит быть прочитанной, поскольку представляет собой подробное справочное пособие с пошаговыми рекомендациями по реализации Data Mesh.

Авторы начинают с определения (своего собственного!) и рассказа об основных принципов данного подхода.

Далее следует процесс внедрения Data Mesh в вымышленной компании, включающее в себя описание команд, ролей и людей, из которых они состоят, документов, которые станут фундаментом развития управления данными, а также шаблоны этих самых документов с примерами заполнения…

Также дается ответ на сакральный вопрос: «А нужнаен ли вообще аналитика Data Mesh?»

Книга стала для меня настоящей находкой, многое из нее почерпнул для своего текущего проекта, в частности, шаблоны документов «цап-царапнул». Безумно рад, что приобрел бумажный вариант в коллекцию, рекомендую к прочтению всем поклонникам данной методологии и любым профессионалам в области обработки данных, не только руководителям или же архитекторам. Помните, что «Sunny», как любит повторять на концертах один легендарный отечественный музыкант, готовить надо летом.
👍6
Абсолютно случайным, конечно же, является тот факт, что третья подряд книга, за чтение которой я берусь, посвящена Data Mesh.

Заинтересовало название, в первую очередь мне, как исследователю данного подхода, хочется выяснить, какие существуют у стриминга особенности, что ради них понадобилась отдельная книга.

И на этот раз на английском, никаких больше «сеток данных» и других вызывающих глазное кровотечение «шедевров» перевода.

https://www.oreilly.com/library/view/streaming-data-mesh/9781098130718/

#streamingdatamesh
👍3
#заметкинаполях #streamingdatamesh

Первая глава и сразу такой прекрасный эпиграф, взятый из книги Gwen (Chen) Shapira - Kafka: The Definitive Guide (эту книгу тоже рекомендую к прочтению, хотя и доводилось слышать, что она несколько устарела, и есть более современные экземпляры):

«Юношеству свойственно думать, что во времена оны архитектура данных была неимоверно простой, а значит, в связи с ростом объемов, скорости изменения и разнообразия данных, мы нуждаемся в новых сверхсложных подходах. В действительности же проблемы с данными всегда были организационными и поэтому никогда не решались» (перевод мой)
👍6🔥1
#streamingdatamesh #заметкинаполях

Глава первая рассказывает о сущности Data Mesh, ключевых его принципах и возможных альтернативах.
Можно пропустить тем, кто уже с этим всем знаком.
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Лучшая, пожалуй, визуализация трудовых будней типичного инженера данных...
#заметкинаполях #streamingdatamesh

Глава вторая начинается с определение Streaming Data Mesh. Ничего неожиданного, впрочем.
Тот же самый подход, адаптированный для продуктов, поставляющий данные для анализа практически сразу же после их возникновения на источнике.

Далее описываются преимущества потокового обновления перед пакетным, коих набралось ровно 3:

1️⃣ Использование данных в реальном времени

2️⃣ Оптимизация обработки данных

3️⃣ Reverse ETL

И затем дается краткий обзор Lambda и Kappa-архитектур.

Тоже можно пропустить, тем, кто в теме.
👍5
Отвлечемся немного от Data Mesh, тем более, что книга у меня идет неожиданно тяжело.
Наткнулся на днях в одной заблокированной в РФ соцсети на статью стратегического директора компании Astronomer (если кто еще не в курсе, то это, пожалуй, главный популяризатор Apache Airflow) товарища Викрама Коки (не путать с Клавой), посвященную предстоящему в 2025 году выходу Airflow 3.0.

Автор называет предстоящий релиз важнейшим в истории и возвещает о величайших улучшениях, несущих пользу всему сообществу пользователей самого популярного оркестратора потоков данных.

Парочка из них точно заслуживает упоминания:

Версионирование DAG-ов.
Здесь обещаются улучшения в плане сохранения истории. Например, удаленные задачи останутся в UI, а перемещенные в другую группу будут отображаться и в старой, и в новой.

Улучшен Bacfill.
Должна появиться возможность создавать и запуcкать Backfill-задания через UI/API, а также управлять ими и мониторить их состояние (сейчас только через CLI).

За остальными — сюда

#airflow
👍3
Весьма и весьма любопытный репозиторий, я вам скажу, для тех кто хочет изучить «модные» (от слова modern) инструменты инженерии данных.

Что-то здесь дополнительно комментировать — только портить. Смотрите сами, тем более, что впереди долгие и зимние выходные.
👍6
Самыми глупыми на свете я считаю поздравления с возвращением к трудовым будням, будь то отпуск или же длительные выходные. А коль скоро так, просто продолжу рассказывать о чтении «Streaming Data Mesh».

Глава 3 посвящена одному из краеугольных камней Data Mesh — доменному владению, рассказывается, как домены выделить в компании, о сути самого понятия «домен». Ну и про дата-роли, необходимые для каждого домена упоминается.

«Все это уже было в Симпсонах», впрочем...
👍4