Data Engineer – Telegram
Data Engineer
439 subscribers
167 photos
3 videos
105 links
Дата-инженерия в схемах и мемах

По всем вопросам — @mobiledeveloper_bot
Download Telegram
Отвлечемся немного от Data Mesh, тем более, что книга у меня идет неожиданно тяжело.
Наткнулся на днях в одной заблокированной в РФ соцсети на статью стратегического директора компании Astronomer (если кто еще не в курсе, то это, пожалуй, главный популяризатор Apache Airflow) товарища Викрама Коки (не путать с Клавой), посвященную предстоящему в 2025 году выходу Airflow 3.0.

Автор называет предстоящий релиз важнейшим в истории и возвещает о величайших улучшениях, несущих пользу всему сообществу пользователей самого популярного оркестратора потоков данных.

Парочка из них точно заслуживает упоминания:

Версионирование DAG-ов.
Здесь обещаются улучшения в плане сохранения истории. Например, удаленные задачи останутся в UI, а перемещенные в другую группу будут отображаться и в старой, и в новой.

Улучшен Bacfill.
Должна появиться возможность создавать и запуcкать Backfill-задания через UI/API, а также управлять ими и мониторить их состояние (сейчас только через CLI).

За остальными — сюда

#airflow
👍3
Весьма и весьма любопытный репозиторий, я вам скажу, для тех кто хочет изучить «модные» (от слова modern) инструменты инженерии данных.

Что-то здесь дополнительно комментировать — только портить. Смотрите сами, тем более, что впереди долгие и зимние выходные.
👍6
Самыми глупыми на свете я считаю поздравления с возвращением к трудовым будням, будь то отпуск или же длительные выходные. А коль скоро так, просто продолжу рассказывать о чтении «Streaming Data Mesh».

Глава 3 посвящена одному из краеугольных камней Data Mesh — доменному владению, рассказывается, как домены выделить в компании, о сути самого понятия «домен». Ну и про дата-роли, необходимые для каждого домена упоминается.

«Все это уже было в Симпсонах», впрочем...
👍4
DE Skill Set от Marc Lamberti

оригинал
Наткнулся на "The Top Data Trends for 2025" от доселе неизвестных мне товарищей, объединенных общим именем Coalesce. Интересно, что из этого станет обыденностью🤔

Отчет пока не читал, но добавил в очередь, так что, ежели кто меня опередит, делитесь впечатлениями.

Скачать можно здесь
#заметкинаполях #streamingdatamesh

Давно уже у меня не было такой «тяжелой», как «Streaming Data Mesh», книги, особенно, на фоне параллельно изучаемой «Теории пассионарности и этногенеза» Льва Николаевича Гумилева, которая заходит, как Ламин Ямаль в штрафную Мадрида. Только обилие картинок и кода позволили мне к текущему моменту осилить 6 глав.

В главе 4 описывается процесс создания дата-продукта от определения требований к нему(хозяйке на заметку!) до финальной публикации.

Глава 5 посвящена реализации на практике еще одного основного принципа Data Mesh — федеративному управлению вычислительными ресурсами.

В главе же 6 повествуется о инфраструктуре самообслуживания, которая создается центральной командой для облегчения создания продуктов командами доменными.

Продолжение, надеюсь, следует...
👍1
Нейросети вторгаются в нашу жизнь со скоростью и настырностью «пожилой женщины, видящей единственное свободное место в вагоне метро». Скоро и шагу невозможно будет ступить, не сверившись с рекомендациями.

Яндекс Еда вот, к примеру, опубликовала «первый ресторанный гид с использованием высоких технологий».

Но есть нюанс, нейросеть формировала только лонглист, который потом «зашортили» эксперты и пользователи. Поэтому гид получился очевидным и скучным, как по мне, на уровне «британских ученых». Или как московскому «Спартаку» рекомендовать приобрести Мбаппе с Винисиусом…

От «высоких технологий» хочется чего-то более интересного, особенно, если учитывать, что «пожрать» я совсем не любитель...

А профессионал😀

https://ultima.guide/moscow

#лишьбыпожрать
👍2
Forwarded from DataJourney
Официальные образы Python в DockerHub

Недавно, для нового проекта, выбирал контейнер для запуска Python скрипта в Docker и последующей отправкой этого добра в Kuber. Оставлю шпаргалку о том, что скрывается за названиями образов на DockerHub.

Название образа формируется из версии Python, версии и типа ОС, которые являются основой для образа. Основой для образа могут быть следующие ОС:

1) alpine - очень легкий и минималистичный образ Linux, который настолько мал, что это может породить проблемы, если понадобится запустить что-то серьезное с кучей зависимостей. Обманчиво мал. Если начать ставить в него то, чего не хватает, то может вырасти больше, чем slim версия Debian
2) bookworm, bullseye, buster - именованные в честь героев «Истории игрушек» версии Debian, можно использовать, когда проекту нужен полный Debian со всеми бинарниками
3) slim - облегченный образ Debian соответствующей версии, можно использовать, когда хватает обрезанного Debian, важен вес образа, но alpine не вывозит
4) windowsserver - вы не знали, а они есть! Разные образы Windows для разных задач.

#Docker #Python #DockerHub
👍3
#streamingdatamesh #заметкинаполях

Седьмая глава «Streaming Data Mesh» посвящена архитектуре, а вот восьмая уже интереснее, по крайней мере, мне на данный момент: «Построение децентрализованной дата-команды».

Сразу в глаза бросается сентенция о том, что в последнее время требования к дата-профессионалам выросли очень сильно.

Готовясь к встречам со своими менти, я регулярно просматриваю вакансии junior data engineer и понимаю, что в свое время не дошел бы даже до HR. Ну какое знание физических join-ов и оптимизация запросов?
Во времена оны далеко не все синьоры в это умели, а, если и умели, то редко практиковали, а, если и практиковали, то не там, где нужно.

Продолжение следует...
"Какая боль, какая боль..."
Прекрасная статья о том, как Лемана Про корпоративную школу BI внедряли. Готовый пошаговый план — бери и пользуйся.

Взял себе в буклист парочку доселе мне неизвестных, но интригующих названием книг: «Аналитическая культура» Карла Андерсона и «ДАТА ЙОГА: грамотная работа с данными» Александры Усачевой и Андрея Демидова.

https://habr.com/p/864328/
#заметкинаполях #streamingdatamesh

Продолжаю изучать восьмую главу «Streaming Data Mesh». Следующий интересный момент касается непосредственно описания федеративной команды. Делением на центральную команду, которая отвечает за платформу самообслуживания, этакий маркетплейс данных, и на доменные команды, которые «пилят» свои дата-продукты, сейчас вряд ли кого-то удивишь.

Суть же в том, что: Data Mesh — это не про архитектуры, технологии и даже не про процессы (хотя они, безусловно, важны). В первую очередь нужны люди с абсолютно другим уровнем мышления, умеющих «услышать голос каждого». «Чтобы построить многополярный мир нужно самому сначала стать многополярным». А вот рецепта по поиску таких людей нет «ни в одном травнике, ни в одном лечебнике, ни в одной энциклопедии».

Найм — это лотерея, по большому счету. К сожалению, нельзя отправить скаута, как в футболе, и просмотреть с трибуны нужного кандидата. А собеседование же подобно оценке умений футболиста, ориентируясь исключительно на серии послематчевых пенальти. Роберто Баджо мимо…

А коль скоро так, преимущество будет у тех компаний, которые смогут создать «культуру поддержки и доверия».

Кроме того, особое внимание с самого начала нужно уделять развитию тесного сотрудничества между командами.

Продолжение следует…
👍1
#напочитать

Кажется, мой буклист никогда не опустеет.

В ноябре 2025 товарищи Chad Sanderson и Mark Freeman планируют выпустить книгу, посвященную дата-контрактам.

https://www.oreilly.com/library/view/data-contracts/9781098157623/
🔥1
#streamingdatamesh #заметкинаполях

Авторы «Streaming Data Mesh», помимо командного деления, вводят новые роли, например, для инженеров данных: платформенного и доменного. Можно ли считать это отходом от канона, который, напротив, провозглашает в скором будущем появление единой инженерной дата-профессии — data product developer?

Тут важно понимать разницу между ролью и профессией.

В исторически общепринятой классификации игроки на футбольном поле подразделяются на вратарей, защитников, полузащитников и нападающих.
Усилиями тактических фриков, неспособных «мяч начеканить хотя бы тысячу раз», коих хлебом не корми, дай лишь профессию новую выдумать, в современном футболе появились ложные девятки, анкормены и прочие инвертированные вингеры, за которых в приличном обществе можно и канделябром…

Так вот, все вышеперечисленное — это не новые позиции на поле, а роли, выполняющие определенные функции в каждом конкретном матче и соответствующие определенному положению на поле. Роли могут меняться даже в течение одного тайма, а вот смена позиции происходит довольно редко в нормальных обстоятельствах, разве что Хорхе Кампос на ум приходит.

В мире данных происходит то же самое (здесь вообще очень многое с футбола безбожно содрано), инженер данных — это профессия, а dataops-, analytics- (кстати, где они сейчас? А разговоров-то было…) и прочие data quality-инженеры — это роли, в которые приличный современный специалист должен уметь… Независимо от выбранной тактики на игру…

Давайте пожалеем рекрутеров, многие из них так и не пришли в себя после трансформации DWH/ETL-разработчиков в инженеров данных, а разделение оставим дата-фрикам...
👍1
Понедельник, говорят, - день тяжелый, поэтому начнем с небольшой разминки😀
😁7
#заметкинаполях #streamingdatamesh

Закончил чтение «Streaming Data Mesh». Из девятой главы узнал, наконец, что скрывается за понятием feature store, а в десятой даже читать нечего — она практическая, там код один почти и картинки.

Итого: это не книга и даже не практическое руководство, а методическое пособие по проведению лабораторных работ. Если цель именно такая, то читать можно. В качестве учебников лучше использовать «Data Mesh» и «Data Mesh in action».

Теперь можно немного отдохнуть и приняться за изучение того, что Coalesce «натрендировали».
Изучая тренды, натыкаюсь на доселе неизвестные мне аббревиатуры и понятия, которые тоже в свою очередь приходится изучать (опять эта чертова рекурсия!).
Читаю теперь про RAG под практически одноименную композицию ВИА Nazareth.

https://habr.com/ru/articles/779526/
👍4
Нашел прекрасное о специализации у гуру управления переменами в корпоративной среде товарища Джона Коттера в параллельно изучаемой главной его книге (по версии журнала TIME) - «Впереди перемен».

«Наличие работников только с узкой специализацией может подорвать усилия по повышению производительности или улучшению обслуживания клиентов».


Выглидит так, что в быстро меняющемся мире специализация — непозволительная роскошь для компаний. Невозможно выиграть соревнование, предварительно расставив препятствия исключительно на своем пути.

В ближайшие пару-тройку лет спрос на универсалов в дате сильно возрастет. Готовьте Sunny летом, в общем.
👍5👾2