NEW BOT Телеграм, страница

Data Engineer

Самыми глупыми на свете я считаю поздравления с возвращением к трудовым будням, будь то отпуск или же длительные выходные. А коль скоро так, просто продолжу рассказывать о чтении «Streaming Data Mesh».

Глава 3 посвящена одному из краеугольных камней Data Mesh — доменному владению, рассказывается, как домены выделить в компании, о сути самого понятия «домен». Ну и про дата-роли, необходимые для каждого домена упоминается.

«Все это уже было в Симпсонах», впрочем...

👍4

305 viewsedited 06:43

Data Engineer

DE Skill Set от Marc Lamberti

оригинал

316 viewsedited 10:55

Data Engineer

Занятная статья о грядущих в 2025 году обновлениях в Apache Iceberg

https://amdatalakehouse.substack.com/p/10-future-apache-iceberg-developments

Substack

10 Future Apache Iceberg Developments to Look forward to in 2025

Blog: What is a Data Lakehouse and a Table Format?

381 views12:21

Data Engineer

Наткнулся на "The Top Data Trends for 2025" от доселе неизвестных мне товарищей, объединенных общим именем Coalesce. Интересно, что из этого станет обыденностью🤔

Отчет пока не читал, но добавил в очередь, так что, ежели кто меня опередит, делитесь впечатлениями.

Скачать можно здесь

335 views08:08

Data Engineer

Пятница - лучшее время ознакомиться со статьей о выборе вина на основе данных😀

https://habr.com/ru/companies/luxms_bi/articles/869382/

Хабр

Как выбрать вкусное вино на основе данных с помощью Luxms BI

Меня зовут Ярослав Золотухин, я QA Lead Luxms , и сегодня хочу поделиться с вами своим личным опытом выбора вина, который стал для меня гораздо интереснее и проще благодаря данным и платформе...

👍3

3.72K views06:16

Data Engineer

#заметкинаполях #streamingdatamesh

Давно уже у меня не было такой «тяжелой», как «Streaming Data Mesh», книги, особенно, на фоне параллельно изучаемой «Теории пассионарности и этногенеза» Льва Николаевича Гумилева, которая заходит, как Ламин Ямаль в штрафную Мадрида. Только обилие картинок и кода позволили мне к текущему моменту осилить 6 глав.

В главе 4 описывается процесс создания дата-продукта от определения требований к нему(хозяйке на заметку!) до финальной публикации.

Глава 5 посвящена реализации на практике еще одного основного принципа Data Mesh — федеративному управлению вычислительными ресурсами.

В главе же 6 повествуется о инфраструктуре самообслуживания, которая создается центральной командой для облегчения создания продуктов командами доменными.

Продолжение, надеюсь, следует...

👍1

258 views06:08

Data Engineer

Нейросети вторгаются в нашу жизнь со скоростью и настырностью «пожилой женщины, видящей единственное свободное место в вагоне метро». Скоро и шагу невозможно будет ступить, не сверившись с рекомендациями.

Яндекс Еда вот, к примеру, опубликовала «первый ресторанный гид с использованием высоких технологий».

Но есть нюанс, нейросеть формировала только лонглист, который потом «зашортили» эксперты и пользователи. Поэтому гид получился очевидным и скучным, как по мне, на уровне «британских ученых». Или как московскому «Спартаку» рекомендовать приобрести Мбаппе с Винисиусом…

От «высоких технологий» хочется чего-то более интересного, особенно, если учитывать, что «пожрать» я совсем не любитель...

А профессионал😀

https://ultima.guide/moscow

#лишьбыпожрать

ultima.guide

топ Ultima Guide

Первый ресторанный технологический гид

👍2

257 views06:13

Data Engineer

Forwarded from DataJourney

Официальные образы Python в DockerHub

Недавно, для нового проекта, выбирал контейнер для запуска Python скрипта в Docker и последующей отправкой этого добра в Kuber. Оставлю шпаргалку о том, что скрывается за названиями образов на DockerHub.

Название образа формируется из версии Python, версии и типа ОС, которые являются основой для образа. Основой для образа могут быть следующие ОС:

1) alpine - очень легкий и минималистичный образ Linux, который настолько мал, что это может породить проблемы, если понадобится запустить что-то серьезное с кучей зависимостей. Обманчиво мал. Если начать ставить в него то, чего не хватает, то может вырасти больше, чем slim версия Debian
2) bookworm, bullseye, buster - именованные в честь героев «Истории игрушек» версии Debian, можно использовать, когда проекту нужен полный Debian со всеми бинарниками
3) slim - облегченный образ Debian соответствующей версии, можно использовать, когда хватает обрезанного Debian, важен вес образа, но alpine не вывозит
4) windowsserver - вы не знали, а они есть! Разные образы Windows для разных задач.

#Docker #Python #DockerHub

Docker

python - Official Image | Docker Hub

Python is an interpreted, interactive, object-oriented, open-source programming language.

👍3

254 views07:43

Data Engineer

#streamingdatamesh #заметкинаполях

Седьмая глава «Streaming Data Mesh» посвящена архитектуре, а вот восьмая уже интереснее, по крайней мере, мне на данный момент: «Построение децентрализованной дата-команды».

Сразу в глаза бросается сентенция о том, что в последнее время требования к дата-профессионалам выросли очень сильно.

Готовясь к встречам со своими менти, я регулярно просматриваю вакансии junior data engineer и понимаю, что в свое время не дошел бы даже до HR. Ну какое знание физических join-ов и оптимизация запросов?
Во времена оны далеко не все синьоры в это умели, а, если и умели, то редко практиковали, а, если и практиковали, то не там, где нужно.

Продолжение следует...

324 views08:04

Data Engineer

"Какая боль, какая боль..."

296 views05:57

Data Engineer

Прекрасная статья о том, как Лемана Про корпоративную школу BI внедряли. Готовый пошаговый план — бери и пользуйся.

Взял себе в буклист парочку доселе мне неизвестных, но интригующих названием книг: «Аналитическая культура» Карла Андерсона и «ДАТА ЙОГА: грамотная работа с данными» Александры Усачевой и Андрея Демидова.

https://habr.com/p/864328/

Habr

Корпоративная школа BI: от таблиц на коленке до дашбордов, которые реально работают

Сегодня всё чаще говорят о подходе data driven и важности data literacy. В крупных компаниях, да и не только, BI (business intelligence) становится одним из ключевых инструментов для принятия...

276 views06:34

Data Engineer

Повторение, говорят, - мать учения. Еще одна статья на тему Data Warehouse, Data Lake, Data LakeHouse и Data Mesh.

https://luminousmen.com/post/data-warehouse-data-lake-data-lakehouse-data-mesh-what-they-are-and-how-they-differ

Blog | iamluminousmen

Data Warehouse, Data Lake, Data Lakehouse, Data Mesh: What They Are and How They Differ

Discover the differences between Data Warehouse, Data Lake, Data Lakehouse, and Data Mesh. Dive into modern data architectures without the BS. Explore their strengths, weaknesses, and use cases in plain language.

🔥5👍1

278 views06:20

Data Engineer

#заметкинаполях #streamingdatamesh

Продолжаю изучать восьмую главу «Streaming Data Mesh». Следующий интересный момент касается непосредственно описания федеративной команды. Делением на центральную команду, которая отвечает за платформу самообслуживания, этакий маркетплейс данных, и на доменные команды, которые «пилят» свои дата-продукты, сейчас вряд ли кого-то удивишь.

Суть же в том, что: Data Mesh — это не про архитектуры, технологии и даже не про процессы (хотя они, безусловно, важны). В первую очередь нужны люди с абсолютно другим уровнем мышления, умеющих «услышать голос каждого». «Чтобы построить многополярный мир нужно самому сначала стать многополярным». А вот рецепта по поиску таких людей нет «ни в одном травнике, ни в одном лечебнике, ни в одной энциклопедии».

Найм — это лотерея, по большому счету. К сожалению, нельзя отправить скаута, как в футболе, и просмотреть с трибуны нужного кандидата. А собеседование же подобно оценке умений футболиста, ориентируясь исключительно на серии послематчевых пенальти. Роберто Баджо мимо…

А коль скоро так, преимущество будет у тех компаний, которые смогут создать «культуру поддержки и доверия».

Кроме того, особое внимание с самого начала нужно уделять развитию тесного сотрудничества между командами.

Продолжение следует…

👍1

263 viewsedited 08:26

Data Engineer

#напочитать

Кажется, мой буклист никогда не опустеет.

В ноябре 2025 товарищи Chad Sanderson и Mark Freeman планируют выпустить книгу, посвященную дата-контрактам.

https://www.oreilly.com/library/view/data-contracts/9781098157623/

O’Reilly Online Learning

Data Contracts

Poor data quality can cause major problems for data teams, from breaking revenue-generating data pipelines to losing the trust of data consumers. Despite the importance of data... - Selection from Data Contracts [Book]

🔥1

295 views06:18

Data Engineer

#streamingdatamesh #заметкинаполях

Авторы «Streaming Data Mesh», помимо командного деления, вводят новые роли, например, для инженеров данных: платформенного и доменного. Можно ли считать это отходом от канона, который, напротив, провозглашает в скором будущем появление единой инженерной дата-профессии — data product developer?

Тут важно понимать разницу между ролью и профессией.

В исторически общепринятой классификации игроки на футбольном поле подразделяются на вратарей, защитников, полузащитников и нападающих.
Усилиями тактических фриков, неспособных «мяч начеканить хотя бы тысячу раз», коих хлебом не корми, дай лишь профессию новую выдумать, в современном футболе появились ложные девятки, анкормены и прочие инвертированные вингеры, за которых в приличном обществе можно и канделябром…

Так вот, все вышеперечисленное — это не новые позиции на поле, а роли, выполняющие определенные функции в каждом конкретном матче и соответствующие определенному положению на поле. Роли могут меняться даже в течение одного тайма, а вот смена позиции происходит довольно редко в нормальных обстоятельствах, разве что Хорхе Кампос на ум приходит.

В мире данных происходит то же самое (здесь вообще очень многое с футбола безбожно содрано), инженер данных — это профессия, а dataops-, analytics- (кстати, где они сейчас? А разговоров-то было…) и прочие data quality-инженеры — это роли, в которые приличный современный специалист должен уметь… Независимо от выбранной тактики на игру…

Давайте пожалеем рекрутеров, многие из них так и не пришли в себя после трансформации DWH/ETL-разработчиков в инженеров данных, а разделение оставим дата-фрикам...

👍1

311 views07:03

Data Engineer

Понедельник, говорят, - день тяжелый, поэтому начнем с небольшой разминки😀

😁7

430 views06:03

Data Engineer

#заметкинаполях #streamingdatamesh

Закончил чтение «Streaming Data Mesh». Из девятой главы узнал, наконец, что скрывается за понятием feature store, а в десятой даже читать нечего — она практическая, там код один почти и картинки.

Итого: это не книга и даже не практическое руководство, а методическое пособие по проведению лабораторных работ. Если цель именно такая, то читать можно. В качестве учебников лучше использовать «Data Mesh» и «Data Mesh in action».

Теперь можно немного отдохнуть и приняться за изучение того, что Coalesce «натрендировали».

366 views06:26

Data Engineer

Изучая тренды, натыкаюсь на доселе неизвестные мне аббревиатуры и понятия, которые тоже в свою очередь приходится изучать (опять эта чертова рекурсия!).
Читаю теперь про RAG под практически одноименную композицию ВИА Nazareth.

https://habr.com/ru/articles/779526/

Хабр

RAG (Retrieval Augmented Generation) — простое и понятное объяснение

Меня все время спрашивают, что такое RAG (в контексте больших языковых моделей) и я все время хочу дать ссылку на статью на habr, где бы простыми словами, но тем не менее...

👍4

365 viewsedited 08:01

Data Engineer

Нашел прекрасное о специализации у гуру управления переменами в корпоративной среде товарища Джона Коттера в параллельно изучаемой главной его книге (по версии журнала TIME) - «Впереди перемен».

«Наличие работников только с узкой специализацией может подорвать усилия по повышению производительности или улучшению обслуживания клиентов».

Выглидит так, что в быстро меняющемся мире специализация — непозволительная роскошь для компаний. Невозможно выиграть соревнование, предварительно расставив препятствия исключительно на своем пути.

В ближайшие пару-тройку лет спрос на универсалов в дате сильно возрастет. Готовьте Sunny летом, в общем.

👍5👾2

355 views06:18

Data Engineer

Forwarded from DataJourney

Партиции в Clickhouse, нюансы нейминга

Использование обращений напрямую к партициям позволяет выполнять действия с данными с использованием меньшего количества ресурсов. Пользуюсь этим на проекте с Clickhouse, если нужно удалить большой кусок данных. На неделе столкнулся с ошибкой при работе с партициями по дате и, после поиска причины проблемы, был неприятно удивлен одновременной гибкости и строгости Clickhouse. Вроде бы доке все описано довольно подробно: PARTITION… Но!

Но, от меня укрылась одна особенность, которой хочу поделиться. В общем случае, как оказалось, ключ партиции (системная колонка _partition_id из рассматриваемой таблички) может не совпадать с наименованием партиции (partition из system.parts). При этом, наименование партиции может быть как строкой, так и числом, так и кортежем (tuple).

При этом в различных операциях с партициями поддерживаются различные варианты указания партиции (см. доку выше), но вот в операции ALTER TABLE DELETE IN PARTITION ожидается представление из system.parts. При этом, в зависимости от типа данных там может быть как число, так и строка. Просто рай для автоматизации!

Для себя выбрал решение брать значение из системной колонки _partition_value, приведенное к строке через toString. Пока каких-то проблем не поймали.

P.S. Что была за проблема? Я брал название партиции из системной колонки _partition_id. Во всех интеграциях операция отрабатывала нормально кроме одной. При этом никаких сообщений об ошибках не было. Данные просто не удалялись, так как партиции с именем _partition_id не существовало. Вот так по тихому, без ошибок, плодились задвоения данных.

Clickhouse

Управление партициями и частями | ClickHouse Docs

Документация для Partition

291 views11:45

Data Engineer

Наткнулся на "The Top Data Trends for 2025" от доселе неизвестных мне товарищей, объединенных общим именем Coalesce. Интересно, что из этого станет обыденностью🤔 Отчет пока не читал, но добавил в очередь, так что, ежели кто меня опередит, делитесь впечатлениями.…

В конце 2024 года компания Coalesce попросила ведущих мировых экспертов в области больших данных и искусственного интеллекта порассуждать на тему тенденций развития мира данных в наступающем тогда еще 2025 году, объединив сии оценочные суждения в один документ, до которого у меня, наконец-то руки дошли.

Вот что нас ожидает в этом году по мнению экспертов (как обычно в моей авторской «интертрепации»)

🟢 ~~Пластмассовый мир~~ ~~Разум~~ Data Mesh, наконец-то, победит, ибо ИИ не заменит дата-специалистов, а наоборот, поспособствует распространению внутри компаний децентрализованных кросс-функциональных команд (еще один тревожный звоночек игнорирующим тренды адептам узкой специализации). Все больше компаний будут думать о данных как о продукте, а не активе.

🟢 SQL — навсегда! Это лучший язык для работы с большими наборами данных.

🟢 Разрыв между IT и бизнесом будет сокращаться, а взаимное проникновение - расти. Сбудется мечта Макара Нагульнова: «Все будут личиками приятно-смуглявые, и все одинаковые». Айтишники все чаще будут переходить в бизнес и наоборот.

🟢 «Рушить догмы — лучший способ не стареть». Грядет время «спринтеров», моментально реагирующих на стартовый сигнал и срывающихся с низкого старта навстречу новой задаче с новым решением.

🟢 Наступил век открытых табличных форматов, и Apache Iceberg - пророк его.

🟢 Автоматизация автоматизации. Автоматизацией рутинных ручных процессов по обработке и очистке данных при помощи конвейеров данных сейчас вряд ли кого-то удивишь. А вот автоматизация создания таких конвейеров - дело относительно новое, к тому же за дело берется ИИ.

Проверим-проверим...

👍6

274 views10:14

About

Blog

Apps

Platform