NEW BOT Телеграм, страница

Data Engineer

Нашел интересный, на мой взгляд, инженерно-данный ресурс аккумулирующий в себе разные полезности. Новичкам особенно рекомендасьон.

https://www.dataengineers.pro/

👍3❤2

260 views12:38

Data Engineer

#datameshianaction

Заканчиваю чтение «Data Mesh в действии», а значит, время пришло подводить итоги. Книга, однозначно, стоит быть прочитанной, поскольку представляет собой подробное справочное пособие с пошаговыми рекомендациями по реализации Data Mesh.

Авторы начинают с определения (своего собственного!) и рассказа об основных принципов данного подхода.

Далее следует процесс внедрения Data Mesh в вымышленной компании, включающее в себя описание команд, ролей и людей, из которых они состоят, документов, которые станут фундаментом развития управления данными, а также шаблоны этих самых документов с примерами заполнения…

Также дается ответ на сакральный вопрос: «А нужнаен ли вообще ~~аналитика~~ Data Mesh?»

Книга стала для меня настоящей находкой, многое из нее почерпнул для своего текущего проекта, в частности, шаблоны документов «цап-царапнул». Безумно рад, что приобрел бумажный вариант в коллекцию, рекомендую к прочтению всем поклонникам данной методологии и любым профессионалам в области обработки данных, не только руководителям или же архитекторам. Помните, что «Sunny», как любит повторять на концертах один легендарный отечественный музыкант, готовить надо летом.

👍6

254 views09:50

Data Engineer

Абсолютно случайным, конечно же, является тот факт, что третья подряд книга, за чтение которой я берусь, посвящена Data Mesh.

Заинтересовало название, в первую очередь мне, как исследователю данного подхода, хочется выяснить, какие существуют у стриминга особенности, что ради них понадобилась отдельная книга.

И на этот раз на английском, никаких больше «сеток данных» и других вызывающих глазное кровотечение «шедевров» перевода.

https://www.oreilly.com/library/view/streaming-data-mesh/9781098130718/

#streamingdatamesh

O’Reilly Online Learning

Streaming Data Mesh

Data lakes and warehouses have become increasingly fragile, costly, and difficult to maintain as data gets bigger and moves faster. Data meshes can help your organization... - Selection from Streaming Data Mesh [Book]

👍3

281 views08:10

Data Engineer

#заметкинаполях #streamingdatamesh

Первая глава и сразу такой прекрасный эпиграф, взятый из книги Gwen (Chen) Shapira - Kafka: The Definitive Guide (эту книгу тоже рекомендую к прочтению, хотя и доводилось слышать, что она несколько устарела, и есть более современные экземпляры):

«Юношеству свойственно думать, что во времена оны архитектура данных была неимоверно простой, а значит, в связи с ростом объемов, скорости изменения и разнообразия данных, мы нуждаемся в новых сверхсложных подходах. В действительности же проблемы с данными всегда были организационными и поэтому никогда не решались» (перевод мой)

👍6🔥1

339 viewsedited 10:38

Data Engineer

#streamingdatamesh #заметкинаполях

Глава первая рассказывает о сущности Data Mesh, ключевых его принципах и возможных альтернативах.
Можно пропустить тем, кто уже с этим всем знаком.

👍1

255 viewsedited 09:15

Data Engineer

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Лучшая, пожалуй, визуализация трудовых будней типичного инженера данных...

285 views06:37

Data Engineer

#заметкинаполях #streamingdatamesh

Глава вторая начинается с определение Streaming Data Mesh. Ничего неожиданного, впрочем.
Тот же самый подход, адаптированный для продуктов, поставляющий данные для анализа практически сразу же после их возникновения на источнике.

Далее описываются преимущества потокового обновления перед пакетным, коих набралось ровно 3:

1️⃣ Использование данных в реальном времени

2️⃣ Оптимизация обработки данных

3️⃣ Reverse ETL

И затем дается краткий обзор Lambda и Kappa-архитектур.

Тоже можно пропустить, тем, кто в теме.

👍5

268 views10:15

Data Engineer

Отвлечемся немного от Data Mesh, тем более, что книга у меня идет неожиданно тяжело.
Наткнулся на днях в одной заблокированной в РФ соцсети на статью стратегического директора компании Astronomer (если кто еще не в курсе, то это, пожалуй, главный популяризатор Apache Airflow) товарища Викрама Коки (не путать с Клавой), посвященную предстоящему в 2025 году выходу Airflow 3.0.

Автор называет предстоящий релиз важнейшим в истории и возвещает о величайших улучшениях, несущих пользу всему сообществу пользователей самого популярного оркестратора потоков данных.

Парочка из них точно заслуживает упоминания:

➕ Версионирование DAG-ов.
Здесь обещаются улучшения в плане сохранения истории. Например, удаленные задачи останутся в UI, а перемещенные в другую группу будут отображаться и в старой, и в новой.

➕ Улучшен Bacfill.
Должна появиться возможность создавать и запуcкать Backfill-задания через UI/API, а также управлять ими и мониторить их состояние (сейчас только через CLI).

За остальными — сюда

#airflow

Airflow 3 development update

Airflow 3.0 will be a huge milestone for the Airflow project; the first major release in over four years, and will bring great improvements the entire community will benefit from.

👍3

310 viewsedited 07:29

Data Engineer

Весьма и весьма любопытный репозиторий, я вам скажу, для тех кто хочет изучить «модные» (от слова modern) инструменты инженерии данных.

Что-то здесь дополнительно комментировать — только портить. Смотрите сами, тем более, что впереди долгие и зимние выходные.

👍6

410 views07:38

Data Engineer

Самыми глупыми на свете я считаю поздравления с возвращением к трудовым будням, будь то отпуск или же длительные выходные. А коль скоро так, просто продолжу рассказывать о чтении «Streaming Data Mesh».

Глава 3 посвящена одному из краеугольных камней Data Mesh — доменному владению, рассказывается, как домены выделить в компании, о сути самого понятия «домен». Ну и про дата-роли, необходимые для каждого домена упоминается.

«Все это уже было в Симпсонах», впрочем...

👍4

305 viewsedited 06:43

Data Engineer

DE Skill Set от Marc Lamberti

оригинал

316 viewsedited 10:55

Data Engineer

Занятная статья о грядущих в 2025 году обновлениях в Apache Iceberg

https://amdatalakehouse.substack.com/p/10-future-apache-iceberg-developments

Substack

10 Future Apache Iceberg Developments to Look forward to in 2025

Blog: What is a Data Lakehouse and a Table Format?

381 views12:21

Data Engineer

Наткнулся на "The Top Data Trends for 2025" от доселе неизвестных мне товарищей, объединенных общим именем Coalesce. Интересно, что из этого станет обыденностью🤔

Отчет пока не читал, но добавил в очередь, так что, ежели кто меня опередит, делитесь впечатлениями.

Скачать можно здесь

335 views08:08

Data Engineer

Пятница - лучшее время ознакомиться со статьей о выборе вина на основе данных😀

https://habr.com/ru/companies/luxms_bi/articles/869382/

Хабр

Как выбрать вкусное вино на основе данных с помощью Luxms BI

Меня зовут Ярослав Золотухин, я QA Lead Luxms , и сегодня хочу поделиться с вами своим личным опытом выбора вина, который стал для меня гораздо интереснее и проще благодаря данным и платформе...

👍3

3.72K views06:16

Data Engineer

#заметкинаполях #streamingdatamesh

Давно уже у меня не было такой «тяжелой», как «Streaming Data Mesh», книги, особенно, на фоне параллельно изучаемой «Теории пассионарности и этногенеза» Льва Николаевича Гумилева, которая заходит, как Ламин Ямаль в штрафную Мадрида. Только обилие картинок и кода позволили мне к текущему моменту осилить 6 глав.

В главе 4 описывается процесс создания дата-продукта от определения требований к нему(хозяйке на заметку!) до финальной публикации.

Глава 5 посвящена реализации на практике еще одного основного принципа Data Mesh — федеративному управлению вычислительными ресурсами.

В главе же 6 повествуется о инфраструктуре самообслуживания, которая создается центральной командой для облегчения создания продуктов командами доменными.

Продолжение, надеюсь, следует...

👍1

258 views06:08

Data Engineer

Нейросети вторгаются в нашу жизнь со скоростью и настырностью «пожилой женщины, видящей единственное свободное место в вагоне метро». Скоро и шагу невозможно будет ступить, не сверившись с рекомендациями.

Яндекс Еда вот, к примеру, опубликовала «первый ресторанный гид с использованием высоких технологий».

Но есть нюанс, нейросеть формировала только лонглист, который потом «зашортили» эксперты и пользователи. Поэтому гид получился очевидным и скучным, как по мне, на уровне «британских ученых». Или как московскому «Спартаку» рекомендовать приобрести Мбаппе с Винисиусом…

От «высоких технологий» хочется чего-то более интересного, особенно, если учитывать, что «пожрать» я совсем не любитель...

А профессионал😀

https://ultima.guide/moscow

#лишьбыпожрать

ultima.guide

топ Ultima Guide

Первый ресторанный технологический гид

👍2

257 views06:13

Data Engineer

Forwarded from DataJourney

Официальные образы Python в DockerHub

Недавно, для нового проекта, выбирал контейнер для запуска Python скрипта в Docker и последующей отправкой этого добра в Kuber. Оставлю шпаргалку о том, что скрывается за названиями образов на DockerHub.

Название образа формируется из версии Python, версии и типа ОС, которые являются основой для образа. Основой для образа могут быть следующие ОС:

1) alpine - очень легкий и минималистичный образ Linux, который настолько мал, что это может породить проблемы, если понадобится запустить что-то серьезное с кучей зависимостей. Обманчиво мал. Если начать ставить в него то, чего не хватает, то может вырасти больше, чем slim версия Debian
2) bookworm, bullseye, buster - именованные в честь героев «Истории игрушек» версии Debian, можно использовать, когда проекту нужен полный Debian со всеми бинарниками
3) slim - облегченный образ Debian соответствующей версии, можно использовать, когда хватает обрезанного Debian, важен вес образа, но alpine не вывозит
4) windowsserver - вы не знали, а они есть! Разные образы Windows для разных задач.

#Docker #Python #DockerHub

Docker

python - Official Image | Docker Hub

Python is an interpreted, interactive, object-oriented, open-source programming language.

👍3

254 views07:43

Data Engineer

#streamingdatamesh #заметкинаполях

Седьмая глава «Streaming Data Mesh» посвящена архитектуре, а вот восьмая уже интереснее, по крайней мере, мне на данный момент: «Построение децентрализованной дата-команды».

Сразу в глаза бросается сентенция о том, что в последнее время требования к дата-профессионалам выросли очень сильно.

Готовясь к встречам со своими менти, я регулярно просматриваю вакансии junior data engineer и понимаю, что в свое время не дошел бы даже до HR. Ну какое знание физических join-ов и оптимизация запросов?
Во времена оны далеко не все синьоры в это умели, а, если и умели, то редко практиковали, а, если и практиковали, то не там, где нужно.

Продолжение следует...

324 views08:04

Data Engineer

"Какая боль, какая боль..."

296 views05:57

Data Engineer

Прекрасная статья о том, как Лемана Про корпоративную школу BI внедряли. Готовый пошаговый план — бери и пользуйся.

Взял себе в буклист парочку доселе мне неизвестных, но интригующих названием книг: «Аналитическая культура» Карла Андерсона и «ДАТА ЙОГА: грамотная работа с данными» Александры Усачевой и Андрея Демидова.

https://habr.com/p/864328/

Habr

Корпоративная школа BI: от таблиц на коленке до дашбордов, которые реально работают

Сегодня всё чаще говорят о подходе data driven и важности data literacy. В крупных компаниях, да и не только, BI (business intelligence) становится одним из ключевых инструментов для принятия...

276 views06:34

Data Engineer

Повторение, говорят, - мать учения. Еще одна статья на тему Data Warehouse, Data Lake, Data LakeHouse и Data Mesh.

https://luminousmen.com/post/data-warehouse-data-lake-data-lakehouse-data-mesh-what-they-are-and-how-they-differ

Blog | iamluminousmen

Data Warehouse, Data Lake, Data Lakehouse, Data Mesh: What They Are and How They Differ

Discover the differences between Data Warehouse, Data Lake, Data Lakehouse, and Data Mesh. Dive into modern data architectures without the BS. Explore their strengths, weaknesses, and use cases in plain language.

🔥5👍1

278 views06:20

About

Blog

Apps

Platform