Data Engineer – Telegram
Data Engineer
439 subscribers
167 photos
3 videos
105 links
Дата-инженерия в схемах и мемах

По всем вопросам — @mobiledeveloper_bot
Download Telegram
Нашел интересный, на мой взгляд, инженерно-данный ресурс аккумулирующий в себе разные полезности. Новичкам особенно рекомендасьон.

https://www.dataengineers.pro/
👍32
#datameshianaction

Заканчиваю чтение «Data Mesh в действии», а значит, время пришло подводить итоги. Книга, однозначно, стоит быть прочитанной, поскольку представляет собой подробное справочное пособие с пошаговыми рекомендациями по реализации Data Mesh.

Авторы начинают с определения (своего собственного!) и рассказа об основных принципов данного подхода.

Далее следует процесс внедрения Data Mesh в вымышленной компании, включающее в себя описание команд, ролей и людей, из которых они состоят, документов, которые станут фундаментом развития управления данными, а также шаблоны этих самых документов с примерами заполнения…

Также дается ответ на сакральный вопрос: «А нужнаен ли вообще аналитика Data Mesh?»

Книга стала для меня настоящей находкой, многое из нее почерпнул для своего текущего проекта, в частности, шаблоны документов «цап-царапнул». Безумно рад, что приобрел бумажный вариант в коллекцию, рекомендую к прочтению всем поклонникам данной методологии и любым профессионалам в области обработки данных, не только руководителям или же архитекторам. Помните, что «Sunny», как любит повторять на концертах один легендарный отечественный музыкант, готовить надо летом.
👍6
Абсолютно случайным, конечно же, является тот факт, что третья подряд книга, за чтение которой я берусь, посвящена Data Mesh.

Заинтересовало название, в первую очередь мне, как исследователю данного подхода, хочется выяснить, какие существуют у стриминга особенности, что ради них понадобилась отдельная книга.

И на этот раз на английском, никаких больше «сеток данных» и других вызывающих глазное кровотечение «шедевров» перевода.

https://www.oreilly.com/library/view/streaming-data-mesh/9781098130718/

#streamingdatamesh
👍3
#заметкинаполях #streamingdatamesh

Первая глава и сразу такой прекрасный эпиграф, взятый из книги Gwen (Chen) Shapira - Kafka: The Definitive Guide (эту книгу тоже рекомендую к прочтению, хотя и доводилось слышать, что она несколько устарела, и есть более современные экземпляры):

«Юношеству свойственно думать, что во времена оны архитектура данных была неимоверно простой, а значит, в связи с ростом объемов, скорости изменения и разнообразия данных, мы нуждаемся в новых сверхсложных подходах. В действительности же проблемы с данными всегда были организационными и поэтому никогда не решались» (перевод мой)
👍6🔥1
#streamingdatamesh #заметкинаполях

Глава первая рассказывает о сущности Data Mesh, ключевых его принципах и возможных альтернативах.
Можно пропустить тем, кто уже с этим всем знаком.
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Лучшая, пожалуй, визуализация трудовых будней типичного инженера данных...
#заметкинаполях #streamingdatamesh

Глава вторая начинается с определение Streaming Data Mesh. Ничего неожиданного, впрочем.
Тот же самый подход, адаптированный для продуктов, поставляющий данные для анализа практически сразу же после их возникновения на источнике.

Далее описываются преимущества потокового обновления перед пакетным, коих набралось ровно 3:

1️⃣ Использование данных в реальном времени

2️⃣ Оптимизация обработки данных

3️⃣ Reverse ETL

И затем дается краткий обзор Lambda и Kappa-архитектур.

Тоже можно пропустить, тем, кто в теме.
👍5
Отвлечемся немного от Data Mesh, тем более, что книга у меня идет неожиданно тяжело.
Наткнулся на днях в одной заблокированной в РФ соцсети на статью стратегического директора компании Astronomer (если кто еще не в курсе, то это, пожалуй, главный популяризатор Apache Airflow) товарища Викрама Коки (не путать с Клавой), посвященную предстоящему в 2025 году выходу Airflow 3.0.

Автор называет предстоящий релиз важнейшим в истории и возвещает о величайших улучшениях, несущих пользу всему сообществу пользователей самого популярного оркестратора потоков данных.

Парочка из них точно заслуживает упоминания:

Версионирование DAG-ов.
Здесь обещаются улучшения в плане сохранения истории. Например, удаленные задачи останутся в UI, а перемещенные в другую группу будут отображаться и в старой, и в новой.

Улучшен Bacfill.
Должна появиться возможность создавать и запуcкать Backfill-задания через UI/API, а также управлять ими и мониторить их состояние (сейчас только через CLI).

За остальными — сюда

#airflow
👍3
Весьма и весьма любопытный репозиторий, я вам скажу, для тех кто хочет изучить «модные» (от слова modern) инструменты инженерии данных.

Что-то здесь дополнительно комментировать — только портить. Смотрите сами, тем более, что впереди долгие и зимние выходные.
👍6
Самыми глупыми на свете я считаю поздравления с возвращением к трудовым будням, будь то отпуск или же длительные выходные. А коль скоро так, просто продолжу рассказывать о чтении «Streaming Data Mesh».

Глава 3 посвящена одному из краеугольных камней Data Mesh — доменному владению, рассказывается, как домены выделить в компании, о сути самого понятия «домен». Ну и про дата-роли, необходимые для каждого домена упоминается.

«Все это уже было в Симпсонах», впрочем...
👍4
DE Skill Set от Marc Lamberti

оригинал
Наткнулся на "The Top Data Trends for 2025" от доселе неизвестных мне товарищей, объединенных общим именем Coalesce. Интересно, что из этого станет обыденностью🤔

Отчет пока не читал, но добавил в очередь, так что, ежели кто меня опередит, делитесь впечатлениями.

Скачать можно здесь
#заметкинаполях #streamingdatamesh

Давно уже у меня не было такой «тяжелой», как «Streaming Data Mesh», книги, особенно, на фоне параллельно изучаемой «Теории пассионарности и этногенеза» Льва Николаевича Гумилева, которая заходит, как Ламин Ямаль в штрафную Мадрида. Только обилие картинок и кода позволили мне к текущему моменту осилить 6 глав.

В главе 4 описывается процесс создания дата-продукта от определения требований к нему(хозяйке на заметку!) до финальной публикации.

Глава 5 посвящена реализации на практике еще одного основного принципа Data Mesh — федеративному управлению вычислительными ресурсами.

В главе же 6 повествуется о инфраструктуре самообслуживания, которая создается центральной командой для облегчения создания продуктов командами доменными.

Продолжение, надеюсь, следует...
👍1
Нейросети вторгаются в нашу жизнь со скоростью и настырностью «пожилой женщины, видящей единственное свободное место в вагоне метро». Скоро и шагу невозможно будет ступить, не сверившись с рекомендациями.

Яндекс Еда вот, к примеру, опубликовала «первый ресторанный гид с использованием высоких технологий».

Но есть нюанс, нейросеть формировала только лонглист, который потом «зашортили» эксперты и пользователи. Поэтому гид получился очевидным и скучным, как по мне, на уровне «британских ученых». Или как московскому «Спартаку» рекомендовать приобрести Мбаппе с Винисиусом…

От «высоких технологий» хочется чего-то более интересного, особенно, если учитывать, что «пожрать» я совсем не любитель...

А профессионал😀

https://ultima.guide/moscow

#лишьбыпожрать
👍2
Forwarded from DataJourney
Официальные образы Python в DockerHub

Недавно, для нового проекта, выбирал контейнер для запуска Python скрипта в Docker и последующей отправкой этого добра в Kuber. Оставлю шпаргалку о том, что скрывается за названиями образов на DockerHub.

Название образа формируется из версии Python, версии и типа ОС, которые являются основой для образа. Основой для образа могут быть следующие ОС:

1) alpine - очень легкий и минималистичный образ Linux, который настолько мал, что это может породить проблемы, если понадобится запустить что-то серьезное с кучей зависимостей. Обманчиво мал. Если начать ставить в него то, чего не хватает, то может вырасти больше, чем slim версия Debian
2) bookworm, bullseye, buster - именованные в честь героев «Истории игрушек» версии Debian, можно использовать, когда проекту нужен полный Debian со всеми бинарниками
3) slim - облегченный образ Debian соответствующей версии, можно использовать, когда хватает обрезанного Debian, важен вес образа, но alpine не вывозит
4) windowsserver - вы не знали, а они есть! Разные образы Windows для разных задач.

#Docker #Python #DockerHub
👍3
#streamingdatamesh #заметкинаполях

Седьмая глава «Streaming Data Mesh» посвящена архитектуре, а вот восьмая уже интереснее, по крайней мере, мне на данный момент: «Построение децентрализованной дата-команды».

Сразу в глаза бросается сентенция о том, что в последнее время требования к дата-профессионалам выросли очень сильно.

Готовясь к встречам со своими менти, я регулярно просматриваю вакансии junior data engineer и понимаю, что в свое время не дошел бы даже до HR. Ну какое знание физических join-ов и оптимизация запросов?
Во времена оны далеко не все синьоры в это умели, а, если и умели, то редко практиковали, а, если и практиковали, то не там, где нужно.

Продолжение следует...
"Какая боль, какая боль..."
Прекрасная статья о том, как Лемана Про корпоративную школу BI внедряли. Готовый пошаговый план — бери и пользуйся.

Взял себе в буклист парочку доселе мне неизвестных, но интригующих названием книг: «Аналитическая культура» Карла Андерсона и «ДАТА ЙОГА: грамотная работа с данными» Александры Усачевой и Андрея Демидова.

https://habr.com/p/864328/