Data Engineer – Telegram
Data Engineer
439 subscribers
167 photos
3 videos
105 links
Дата-инженерия в схемах и мемах

По всем вопросам — @mobiledeveloper_bot
Download Telegram
#напочитать

Пополнил коллекцию бумажных книг данным, весьма любопытным, как по мне, экземпляром.

Возможно, следовало бы, как обычно, начинать с англоязычного варианта.
А то от "новых аффордансов" в переводе книги Жамак Дегани до сих пор глаза кровоточат.
- Our best release yet! - говорили они...
- No reason to pay for Tableau/Looker/PowerBI anymore. Try Apache Superset 4.1 - говорили они...

- Проверим, проверим - отвечаем мы им словами Василия Казарцева.

Говорит, если что, легенда мира больших данных Maxime Beauchemin в заблокированной в РФ соцсети
Forwarded from DataJourney
Дичь в данных

Порой пользователям нужно обогатить данные в хранилище «вон тем справочником в Excel от поставщика» или еще какой-нибудь дичью, для которой нормальный процесс интеграции не построить.

В мире розовых дата-пони такое неприемлемо. Любые данные должны быть описаны, понятны, качественны и т.д. Но в реальном мире такое вот обогащение навозом может помочь вырастить розу аналитических выводов или управленческих решений на данных. И ради таких роз люди будут это делать какими-то своими способами в обход существующих правил.

Здесь настоятельно всем рекомендую иметь официальную возможность загрузки дичи в хранилище, чтобы не бороться потом с последствиями, а понимать общий масштаб беды и, возможно, менять что-то в процессах. Простая кнопка «загрузить CSV» реализованная в контейнере с Flask позволит пользователям централизованно загружать данные, а команде хранилища их как-то обслуживать.
👍31
#заметкинаполях

Начал читать "Data Mesh в действии". Выглядит так, что лучше "Data Mesh" совсем никак не переводить, чем переводить как "сетка данных".

Звучит ужасно, как по мне...

Где-то на одном уровне с ОАГ и "хранилищем ключевой ценности".

#datameshinaction
👍4
#заметкинаполях

«Чуечка» моя меня редко подводит. Книгу, упомянутую в предыдущей публикации, однозначно, брать стоило, хотя я и прочитал пока лишь пару абзацев из первой главы. Ибо авторы четко задекларировали свое намерение сделать упор на социальную составляющую и уделить основное внимание «людям, процессам и организациям».

А технологии, говорят, можно брать любые, «на которых функционирует большинство современных систем работы с данными»

Посмотрим, что у них в итоге у них получится.

#datameshinaction
🔥4
#заметкинаполях #datameshinaction

«...мы называем такую сеть — сеткой данных...»

Вот ради избежания разрывов головного мозга и других важных человеческих органов при чтении подобных фраз я и стою на том, чтоб не переводить Data Mesh таким образом…
👍5
#заметкинаполях
#datameshinaction

Занимательный факт — авторы дают свое определение Data Mesh, «сформулированное с точки зрения практичности и конечного результата».

Data Mesh — это парадигма децентрализации. В ней децентрализуются владение данных, их преобразование в информацию, а также их обслуживание. Цель — повысить извлечение ценности из данных, устранив узкие места в потоке конверсии данных в ценность. Понятие Data Mesh опирается на четыре принципа, которые помогают эффективно масштабировать работу с данными: владение доменом, представление данных как продукта, федеративное вычислительное управление и самообслуживаемая платформа данных. Реализации могут различаться по объему и степени использования каждого принципа.

Первое и последнее предложение в этом определении являются ключевыми, на мой взгляд. Первое максимально просто и емко и напоминает легендарное определение одного из направлений в рок-музыке, данное ВИА Тараканы! («Панк — это слово из четырех букв.»). А последнее делает бессмысленными споры на тему «чистоты Data Mesh» и оставляет простор для импровизации.

Сами авторы так и пишут: «Ценность заключается в децентрализации, а ключевые принципы — это рекомендации, которые помогут правильно осуществить эту децентрализацию»
👍3
#пятница #заметкинаполях

В моем октябрятском детстве говорили: «Критикуешь — предлагай». Тем более, что я не отношусь к той категории людей, которые считают русский язык бедным, невыразительным, недостойным, чтобы термины иностранные на него переводить (мама - филолог, ага).

На мой взгляд, гораздо лучшим, чем «сетка данных», импортозамещенным вариантом термина Data Mesh будет «пасека данных». Пасечник предоставляет удобную платформу самообслуживания, внутри которой команды «децентрализованно самоорганизуются» и «пилят» свои продукты.

Не дословно, конечно, но суть отражает. К тому же в случае успеха, можно будет пропеть голосом Александра Ливера (обязательно!): «А у меня есть пасека!»

Всех с пятницей!
😁8👍2
Forwarded from DataJourney
Новости AWS

Amazon на днях представил новый тип bucket: «Table bucket», который заточен под хранение Iceberg. Выходит, что Iceberg всех победил и гигант рынка предлагает связку Athena (Trino/Presto/Spark) с Iceberg на S3 как один из вариантов быстрого, надежного, хранилища.

Ребята пишут, что новый тип хранения прячет от пользователя рад операций, которые нужно выполнять при обслуживании хранилища в такой конфигурации. Такие как:
- объединение (compaction): ряд небольших файлов сливаются в один для увеличения скорости обработки
- управление снимками (snapshot management): обычная ротация, старые снапшоты помечаются на удаление и чуть позже удаляются
- очистка (Unreferenced File Removal): автоматическое удаление неиспользуемых файлов.

Исходя из вышеуказанного, выходит, что новый тип позволит как снизить нагрузку на чтение, так и сэкономить на стоимости хранения.
🔥4👍1
#заметкинаполях #datameshinaction

Прекрасная метафора: «Однако уже более десяти лет проблема «похмельного синдрома» от увлечения большими данными отравляет жизнь компаниям любого масштаба…»

Сам когда-то писал про «иглу больших данных».

Отсюда следует, что данные - это не новая нефть, а новый наркотик, вызывающий мгновенное привыкание, чувство эйфории, безопасности и полного контроля над происходящим…

И с отсутствующей пока концепцией «умеренного потребления»…
👍5
#заметкинаполях #datameshinaction

Распечатать и в рамочку под стекло:

«Если вам не удается найти актуальный бизнес-мотив, чтобы переходить к Data Mesh, на этом можно сразу закончить
👍5
#заметкинаполях #datameshinaction

Еще одно важное замечание:

«Data Mesh легче внедрять в компаниях, в которых программное обеспечение разрабатывается в тесном сотрудничестве со специалистами по данным».
👍5
#заметкинаполях #datameshianaction

«Чтобы заложить основу управления данными нужно достичь двух задач в рамках MVP:

1️⃣ Разработать заявление о ценностях, связанное с политиками и правилами управления данными

2️⃣ Задать первоначальные правила и политики, которые будут управлять центральной платформой и продуктами данных.»


Наличие этих двух пунктов, описанных авторами книги, отличает исследованные мной успешные проекты по внедрению Data Mesh от неудачных. И именно с них я начал новый проект, в котором слова «Data Mesh» пока не упоминаются. Долго шел к осознанию сего факта, а мог бы просто в книжке прочитать, если б раньше нашел ее…
Пятница 13 - лучшее, пожалуй, время для публикации новой статьи
👍5🔥2
Нашел интересный, на мой взгляд, инженерно-данный ресурс аккумулирующий в себе разные полезности. Новичкам особенно рекомендасьон.

https://www.dataengineers.pro/
👍32
#datameshianaction

Заканчиваю чтение «Data Mesh в действии», а значит, время пришло подводить итоги. Книга, однозначно, стоит быть прочитанной, поскольку представляет собой подробное справочное пособие с пошаговыми рекомендациями по реализации Data Mesh.

Авторы начинают с определения (своего собственного!) и рассказа об основных принципов данного подхода.

Далее следует процесс внедрения Data Mesh в вымышленной компании, включающее в себя описание команд, ролей и людей, из которых они состоят, документов, которые станут фундаментом развития управления данными, а также шаблоны этих самых документов с примерами заполнения…

Также дается ответ на сакральный вопрос: «А нужнаен ли вообще аналитика Data Mesh?»

Книга стала для меня настоящей находкой, многое из нее почерпнул для своего текущего проекта, в частности, шаблоны документов «цап-царапнул». Безумно рад, что приобрел бумажный вариант в коллекцию, рекомендую к прочтению всем поклонникам данной методологии и любым профессионалам в области обработки данных, не только руководителям или же архитекторам. Помните, что «Sunny», как любит повторять на концертах один легендарный отечественный музыкант, готовить надо летом.
👍6
Абсолютно случайным, конечно же, является тот факт, что третья подряд книга, за чтение которой я берусь, посвящена Data Mesh.

Заинтересовало название, в первую очередь мне, как исследователю данного подхода, хочется выяснить, какие существуют у стриминга особенности, что ради них понадобилась отдельная книга.

И на этот раз на английском, никаких больше «сеток данных» и других вызывающих глазное кровотечение «шедевров» перевода.

https://www.oreilly.com/library/view/streaming-data-mesh/9781098130718/

#streamingdatamesh
👍3
#заметкинаполях #streamingdatamesh

Первая глава и сразу такой прекрасный эпиграф, взятый из книги Gwen (Chen) Shapira - Kafka: The Definitive Guide (эту книгу тоже рекомендую к прочтению, хотя и доводилось слышать, что она несколько устарела, и есть более современные экземпляры):

«Юношеству свойственно думать, что во времена оны архитектура данных была неимоверно простой, а значит, в связи с ростом объемов, скорости изменения и разнообразия данных, мы нуждаемся в новых сверхсложных подходах. В действительности же проблемы с данными всегда были организационными и поэтому никогда не решались» (перевод мой)
👍6🔥1
#streamingdatamesh #заметкинаполях

Глава первая рассказывает о сущности Data Mesh, ключевых его принципах и возможных альтернативах.
Можно пропустить тем, кто уже с этим всем знаком.
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Лучшая, пожалуй, визуализация трудовых будней типичного инженера данных...