Самыми глупыми на свете я считаю поздравления с возвращением к трудовым будням, будь то отпуск или же длительные выходные. А коль скоро так, просто продолжу рассказывать о чтении «Streaming Data Mesh».
Глава 3 посвящена одному из краеугольных камней Data Mesh — доменному владению, рассказывается, как домены выделить в компании, о сути самого понятия «домен». Ну и про дата-роли, необходимые для каждого домена упоминается.
«Все это уже было в Симпсонах», впрочем...
Глава 3 посвящена одному из краеугольных камней Data Mesh — доменному владению, рассказывается, как домены выделить в компании, о сути самого понятия «домен». Ну и про дата-роли, необходимые для каждого домена упоминается.
«Все это уже было в Симпсонах», впрочем...
👍4
Занятная статья о грядущих в 2025 году обновлениях в Apache Iceberg
https://amdatalakehouse.substack.com/p/10-future-apache-iceberg-developments
https://amdatalakehouse.substack.com/p/10-future-apache-iceberg-developments
Substack
10 Future Apache Iceberg Developments to Look forward to in 2025
Blog: What is a Data Lakehouse and a Table Format?
Наткнулся на "The Top Data Trends for 2025" от доселе неизвестных мне товарищей, объединенных общим именем Coalesce. Интересно, что из этого станет обыденностью🤔
Отчет пока не читал, но добавил в очередь, так что, ежели кто меня опередит, делитесь впечатлениями.
Скачать можно здесь
Отчет пока не читал, но добавил в очередь, так что, ежели кто меня опередит, делитесь впечатлениями.
Скачать можно здесь
Пятница - лучшее время ознакомиться со статьей о выборе вина на основе данных😀
https://habr.com/ru/companies/luxms_bi/articles/869382/
https://habr.com/ru/companies/luxms_bi/articles/869382/
Хабр
Как выбрать вкусное вино на основе данных с помощью Luxms BI
Меня зовут Ярослав Золотухин, я QA Lead Luxms , и сегодня хочу поделиться с вами своим личным опытом выбора вина, который стал для меня гораздо интереснее и проще благодаря данным и платформе...
👍3
#заметкинаполях #streamingdatamesh
Давно уже у меня не было такой «тяжелой», как «Streaming Data Mesh», книги, особенно, на фоне параллельно изучаемой «Теории пассионарности и этногенеза» Льва Николаевича Гумилева, которая заходит, как Ламин Ямаль в штрафную Мадрида. Только обилие картинок и кода позволили мне к текущему моменту осилить 6 глав.
В главе 4 описывается процесс создания дата-продукта от определения требований к нему(хозяйке на заметку!) до финальной публикации.
Глава 5 посвящена реализации на практике еще одного основного принципа Data Mesh — федеративному управлению вычислительными ресурсами.
В главе же 6 повествуется о инфраструктуре самообслуживания, которая создается центральной командой для облегчения создания продуктов командами доменными.
Продолжение, надеюсь, следует...
Давно уже у меня не было такой «тяжелой», как «Streaming Data Mesh», книги, особенно, на фоне параллельно изучаемой «Теории пассионарности и этногенеза» Льва Николаевича Гумилева, которая заходит, как Ламин Ямаль в штрафную Мадрида. Только обилие картинок и кода позволили мне к текущему моменту осилить 6 глав.
В главе 4 описывается процесс создания дата-продукта от определения требований к нему(хозяйке на заметку!) до финальной публикации.
Глава 5 посвящена реализации на практике еще одного основного принципа Data Mesh — федеративному управлению вычислительными ресурсами.
В главе же 6 повествуется о инфраструктуре самообслуживания, которая создается центральной командой для облегчения создания продуктов командами доменными.
Продолжение, надеюсь, следует...
👍1
Нейросети вторгаются в нашу жизнь со скоростью и настырностью «пожилой женщины, видящей единственное свободное место в вагоне метро». Скоро и шагу невозможно будет ступить, не сверившись с рекомендациями.
Яндекс Еда вот, к примеру, опубликовала «первый ресторанный гид с использованием высоких технологий».
Но есть нюанс, нейросеть формировала только лонглист, который потом «зашортили» эксперты и пользователи. Поэтому гид получился очевидным и скучным, как по мне, на уровне «британских ученых». Или как московскому «Спартаку» рекомендовать приобрести Мбаппе с Винисиусом…
От «высоких технологий» хочется чего-то более интересного, особенно, если учитывать, что «пожрать» я совсем не любитель...
А профессионал😀
https://ultima.guide/moscow
#лишьбыпожрать
Яндекс Еда вот, к примеру, опубликовала «первый ресторанный гид с использованием высоких технологий».
Но есть нюанс, нейросеть формировала только лонглист, который потом «зашортили» эксперты и пользователи. Поэтому гид получился очевидным и скучным, как по мне, на уровне «британских ученых». Или как московскому «Спартаку» рекомендовать приобрести Мбаппе с Винисиусом…
От «высоких технологий» хочется чего-то более интересного, особенно, если учитывать, что «пожрать» я совсем не любитель...
А профессионал😀
https://ultima.guide/moscow
#лишьбыпожрать
ultima.guide
топ Ultima Guide
Первый ресторанный технологический гид
👍2
Forwarded from DataJourney
Официальные образы Python в DockerHub
Недавно, для нового проекта, выбирал контейнер для запуска Python скрипта в Docker и последующей отправкой этого добра в Kuber. Оставлю шпаргалку о том, что скрывается за названиями образов на DockerHub.
Название образа формируется из версии Python, версии и типа ОС, которые являются основой для образа. Основой для образа могут быть следующие ОС:
1) alpine - очень легкий и минималистичный образ Linux, который настолько мал, что это может породить проблемы, если понадобится запустить что-то серьезное с кучей зависимостей. Обманчиво мал. Если начать ставить в него то, чего не хватает, то может вырасти больше, чем slim версия Debian
2) bookworm, bullseye, buster - именованные в честь героев «Истории игрушек» версии Debian, можно использовать, когда проекту нужен полный Debian со всеми бинарниками
3) slim - облегченный образ Debian соответствующей версии, можно использовать, когда хватает обрезанного Debian, важен вес образа, но alpine не вывозит
4) windowsserver - вы не знали, а они есть! Разные образы Windows для разных задач.
#Docker #Python #DockerHub
Недавно, для нового проекта, выбирал контейнер для запуска Python скрипта в Docker и последующей отправкой этого добра в Kuber. Оставлю шпаргалку о том, что скрывается за названиями образов на DockerHub.
Название образа формируется из версии Python, версии и типа ОС, которые являются основой для образа. Основой для образа могут быть следующие ОС:
1) alpine - очень легкий и минималистичный образ Linux, который настолько мал, что это может породить проблемы, если понадобится запустить что-то серьезное с кучей зависимостей. Обманчиво мал. Если начать ставить в него то, чего не хватает, то может вырасти больше, чем slim версия Debian
2) bookworm, bullseye, buster - именованные в честь героев «Истории игрушек» версии Debian, можно использовать, когда проекту нужен полный Debian со всеми бинарниками
3) slim - облегченный образ Debian соответствующей версии, можно использовать, когда хватает обрезанного Debian, важен вес образа, но alpine не вывозит
4) windowsserver - вы не знали, а они есть! Разные образы Windows для разных задач.
#Docker #Python #DockerHub
Docker
python - Official Image | Docker Hub
Python is an interpreted, interactive, object-oriented, open-source programming language.
👍3
#streamingdatamesh #заметкинаполях
Седьмая глава «Streaming Data Mesh» посвящена архитектуре, а вот восьмая уже интереснее, по крайней мере, мне на данный момент: «Построение децентрализованной дата-команды».
Сразу в глаза бросается сентенция о том, что в последнее время требования к дата-профессионалам выросли очень сильно.
Готовясь к встречам со своими менти, я регулярно просматриваю вакансии junior data engineer и понимаю, что в свое время не дошел бы даже до HR. Ну какое знание физических join-ов и оптимизация запросов?
Во времена оны далеко не все синьоры в это умели, а, если и умели, то редко практиковали, а, если и практиковали, то не там, где нужно.
Продолжение следует...
Седьмая глава «Streaming Data Mesh» посвящена архитектуре, а вот восьмая уже интереснее, по крайней мере, мне на данный момент: «Построение децентрализованной дата-команды».
Сразу в глаза бросается сентенция о том, что в последнее время требования к дата-профессионалам выросли очень сильно.
Готовясь к встречам со своими менти, я регулярно просматриваю вакансии junior data engineer и понимаю, что в свое время не дошел бы даже до HR. Ну какое знание физических join-ов и оптимизация запросов?
Во времена оны далеко не все синьоры в это умели, а, если и умели, то редко практиковали, а, если и практиковали, то не там, где нужно.
Продолжение следует...
Прекрасная статья о том, как Лемана Про корпоративную школу BI внедряли. Готовый пошаговый план — бери и пользуйся.
Взял себе в буклист парочку доселе мне неизвестных, но интригующих названием книг: «Аналитическая культура» Карла Андерсона и «ДАТА ЙОГА: грамотная работа с данными» Александры Усачевой и Андрея Демидова.
https://habr.com/p/864328/
Взял себе в буклист парочку доселе мне неизвестных, но интригующих названием книг: «Аналитическая культура» Карла Андерсона и «ДАТА ЙОГА: грамотная работа с данными» Александры Усачевой и Андрея Демидова.
https://habr.com/p/864328/
Habr
Корпоративная школа BI: от таблиц на коленке до дашбордов, которые реально работают
Сегодня всё чаще говорят о подходе data driven и важности data literacy. В крупных компаниях, да и не только, BI (business intelligence) становится одним из ключевых инструментов для принятия...
Повторение, говорят, - мать учения. Еще одна статья на тему Data Warehouse, Data Lake, Data LakeHouse и Data Mesh.
https://luminousmen.com/post/data-warehouse-data-lake-data-lakehouse-data-mesh-what-they-are-and-how-they-differ
https://luminousmen.com/post/data-warehouse-data-lake-data-lakehouse-data-mesh-what-they-are-and-how-they-differ
Blog | iamluminousmen
Data Warehouse, Data Lake, Data Lakehouse, Data Mesh: What They Are and How They Differ
Discover the differences between Data Warehouse, Data Lake, Data Lakehouse, and Data Mesh. Dive into modern data architectures without the BS. Explore their strengths, weaknesses, and use cases in plain language.
🔥5👍1
#заметкинаполях #streamingdatamesh
Продолжаю изучать восьмую главу «Streaming Data Mesh». Следующий интересный момент касается непосредственно описания федеративной команды. Делением на центральную команду, которая отвечает за платформу самообслуживания, этакий маркетплейс данных, и на доменные команды, которые «пилят» свои дата-продукты, сейчас вряд ли кого-то удивишь.
Суть же в том, что: Data Mesh — это не про архитектуры, технологии и даже не про процессы (хотя они, безусловно, важны). В первую очередь нужны люди с абсолютно другим уровнем мышления, умеющих «услышать голос каждого». «Чтобы построить многополярный мир нужно самому сначала стать многополярным». А вот рецепта по поиску таких людей нет «ни в одном травнике, ни в одном лечебнике, ни в одной энциклопедии».
Найм — это лотерея, по большому счету. К сожалению, нельзя отправить скаута, как в футболе, и просмотреть с трибуны нужного кандидата. А собеседование же подобно оценке умений футболиста, ориентируясь исключительно на серии послематчевых пенальти. Роберто Баджо мимо…
А коль скоро так, преимущество будет у тех компаний, которые смогут создать «культуру поддержки и доверия».
Кроме того, особое внимание с самого начала нужно уделять развитию тесного сотрудничества между командами.
Продолжение следует…
Продолжаю изучать восьмую главу «Streaming Data Mesh». Следующий интересный момент касается непосредственно описания федеративной команды. Делением на центральную команду, которая отвечает за платформу самообслуживания, этакий маркетплейс данных, и на доменные команды, которые «пилят» свои дата-продукты, сейчас вряд ли кого-то удивишь.
Суть же в том, что: Data Mesh — это не про архитектуры, технологии и даже не про процессы (хотя они, безусловно, важны). В первую очередь нужны люди с абсолютно другим уровнем мышления, умеющих «услышать голос каждого». «Чтобы построить многополярный мир нужно самому сначала стать многополярным». А вот рецепта по поиску таких людей нет «ни в одном травнике, ни в одном лечебнике, ни в одной энциклопедии».
Найм — это лотерея, по большому счету. К сожалению, нельзя отправить скаута, как в футболе, и просмотреть с трибуны нужного кандидата. А собеседование же подобно оценке умений футболиста, ориентируясь исключительно на серии послематчевых пенальти. Роберто Баджо мимо…
А коль скоро так, преимущество будет у тех компаний, которые смогут создать «культуру поддержки и доверия».
Кроме того, особое внимание с самого начала нужно уделять развитию тесного сотрудничества между командами.
Продолжение следует…
👍1
#напочитать
Кажется, мой буклист никогда не опустеет.
В ноябре 2025 товарищи Chad Sanderson и Mark Freeman планируют выпустить книгу, посвященную дата-контрактам.
https://www.oreilly.com/library/view/data-contracts/9781098157623/
Кажется, мой буклист никогда не опустеет.
В ноябре 2025 товарищи Chad Sanderson и Mark Freeman планируют выпустить книгу, посвященную дата-контрактам.
https://www.oreilly.com/library/view/data-contracts/9781098157623/
O’Reilly Online Learning
Data Contracts
Poor data quality can cause major problems for data teams, from breaking revenue-generating data pipelines to losing the trust of data consumers. Despite the importance of data... - Selection from Data Contracts [Book]
🔥1
#streamingdatamesh #заметкинаполях
Авторы «Streaming Data Mesh», помимо командного деления, вводят новые роли, например, для инженеров данных: платформенного и доменного. Можно ли считать это отходом от канона, который, напротив, провозглашает в скором будущем появление единой инженерной дата-профессии — data product developer?
Тут важно понимать разницу между ролью и профессией.
В исторически общепринятой классификации игроки на футбольном поле подразделяются на вратарей, защитников, полузащитников и нападающих.
Усилиями тактических фриков, неспособных «мяч начеканить хотя бы тысячу раз», коих хлебом не корми, дай лишь профессию новую выдумать, в современном футболе появились ложные девятки, анкормены и прочие инвертированные вингеры, за которых в приличном обществе можно и канделябром…
Так вот, все вышеперечисленное — это не новые позиции на поле, а роли, выполняющие определенные функции в каждом конкретном матче и соответствующие определенному положению на поле. Роли могут меняться даже в течение одного тайма, а вот смена позиции происходит довольно редко в нормальных обстоятельствах, разве что Хорхе Кампос на ум приходит.
В мире данных происходит то же самое (здесь вообще очень многое с футбола безбожно содрано), инженер данных — это профессия, а dataops-, analytics- (кстати, где они сейчас? А разговоров-то было…) и прочие data quality-инженеры — это роли, в которые приличный современный специалист должен уметь… Независимо от выбранной тактики на игру…
Давайте пожалеем рекрутеров, многие из них так и не пришли в себя после трансформации DWH/ETL-разработчиков в инженеров данных, а разделение оставим дата-фрикам...
Авторы «Streaming Data Mesh», помимо командного деления, вводят новые роли, например, для инженеров данных: платформенного и доменного. Можно ли считать это отходом от канона, который, напротив, провозглашает в скором будущем появление единой инженерной дата-профессии — data product developer?
Тут важно понимать разницу между ролью и профессией.
В исторически общепринятой классификации игроки на футбольном поле подразделяются на вратарей, защитников, полузащитников и нападающих.
Усилиями тактических фриков, неспособных «мяч начеканить хотя бы тысячу раз», коих хлебом не корми, дай лишь профессию новую выдумать, в современном футболе появились ложные девятки, анкормены и прочие инвертированные вингеры, за которых в приличном обществе можно и канделябром…
Так вот, все вышеперечисленное — это не новые позиции на поле, а роли, выполняющие определенные функции в каждом конкретном матче и соответствующие определенному положению на поле. Роли могут меняться даже в течение одного тайма, а вот смена позиции происходит довольно редко в нормальных обстоятельствах, разве что Хорхе Кампос на ум приходит.
В мире данных происходит то же самое (здесь вообще очень многое с футбола безбожно содрано), инженер данных — это профессия, а dataops-, analytics- (кстати, где они сейчас? А разговоров-то было…) и прочие data quality-инженеры — это роли, в которые приличный современный специалист должен уметь… Независимо от выбранной тактики на игру…
Давайте пожалеем рекрутеров, многие из них так и не пришли в себя после трансформации DWH/ETL-разработчиков в инженеров данных, а разделение оставим дата-фрикам...
👍1
#заметкинаполях #streamingdatamesh
Закончил чтение «Streaming Data Mesh». Из девятой главы узнал, наконец, что скрывается за понятием feature store, а в десятой даже читать нечего — она практическая, там код один почти и картинки.
Итого: это не книга и даже не практическое руководство, а методическое пособие по проведению лабораторных работ. Если цель именно такая, то читать можно. В качестве учебников лучше использовать «Data Mesh» и «Data Mesh in action».
Теперь можно немного отдохнуть и приняться за изучение того, что Coalesce «натрендировали».
Закончил чтение «Streaming Data Mesh». Из девятой главы узнал, наконец, что скрывается за понятием feature store, а в десятой даже читать нечего — она практическая, там код один почти и картинки.
Итого: это не книга и даже не практическое руководство, а методическое пособие по проведению лабораторных работ. Если цель именно такая, то читать можно. В качестве учебников лучше использовать «Data Mesh» и «Data Mesh in action».
Теперь можно немного отдохнуть и приняться за изучение того, что Coalesce «натрендировали».
Изучая тренды, натыкаюсь на доселе неизвестные мне аббревиатуры и понятия, которые тоже в свою очередь приходится изучать (опять эта чертова рекурсия!).
Читаю теперь про RAG под практически одноименную композицию ВИА Nazareth.
https://habr.com/ru/articles/779526/
Читаю теперь про RAG под практически одноименную композицию ВИА Nazareth.
https://habr.com/ru/articles/779526/
Хабр
RAG (Retrieval Augmented Generation) — простое и понятное объяснение
Меня все время спрашивают, что такое RAG (в контексте больших языковых моделей) и я все время хочу дать ссылку на статью на habr, где бы простыми словами, но тем не менее...
👍4
Нашел прекрасное о специализации у гуру управления переменами в корпоративной среде товарища Джона Коттера в параллельно изучаемой главной его книге (по версии журнала TIME) - «Впереди перемен».
Выглидит так, что в быстро меняющемся мире специализация — непозволительная роскошь для компаний. Невозможно выиграть соревнование, предварительно расставив препятствия исключительно на своем пути.
В ближайшие пару-тройку лет спрос на универсалов в дате сильно возрастет. Готовьте Sunny летом, в общем.
«Наличие работников только с узкой специализацией может подорвать усилия по повышению производительности или улучшению обслуживания клиентов».
Выглидит так, что в быстро меняющемся мире специализация — непозволительная роскошь для компаний. Невозможно выиграть соревнование, предварительно расставив препятствия исключительно на своем пути.
В ближайшие пару-тройку лет спрос на универсалов в дате сильно возрастет. Готовьте Sunny летом, в общем.
👍5👾2
Forwarded from DataJourney
Партиции в Clickhouse, нюансы нейминга
Использование обращений напрямую к партициям позволяет выполнять действия с данными с использованием меньшего количества ресурсов. Пользуюсь этим на проекте с Clickhouse, если нужно удалить большой кусок данных. На неделе столкнулся с ошибкой при работе с партициями по дате и, после поиска причины проблемы, был неприятно удивлен одновременной гибкости и строгости Clickhouse. Вроде бы доке все описано довольно подробно: PARTITION… Но!
Но, от меня укрылась одна особенность, которой хочу поделиться. В общем случае, как оказалось, ключ партиции (системная колонка _partition_id из рассматриваемой таблички) может не совпадать с наименованием партиции (partition из system.parts). При этом, наименование партиции может быть как строкой, так и числом, так и кортежем (tuple).
При этом в различных операциях с партициями поддерживаются различные варианты указания партиции (см. доку выше), но вот в операции ALTER TABLE DELETE IN PARTITION ожидается представление из system.parts. При этом, в зависимости от типа данных там может быть как число, так и строка. Просто рай для автоматизации!
Для себя выбрал решение брать значение из системной колонки _partition_value, приведенное к строке через toString. Пока каких-то проблем не поймали.
P.S. Что была за проблема? Я брал название партиции из системной колонки _partition_id. Во всех интеграциях операция отрабатывала нормально кроме одной. При этом никаких сообщений об ошибках не было. Данные просто не удалялись, так как партиции с именем _partition_id не существовало. Вот так по тихому, без ошибок, плодились задвоения данных.
Использование обращений напрямую к партициям позволяет выполнять действия с данными с использованием меньшего количества ресурсов. Пользуюсь этим на проекте с Clickhouse, если нужно удалить большой кусок данных. На неделе столкнулся с ошибкой при работе с партициями по дате и, после поиска причины проблемы, был неприятно удивлен одновременной гибкости и строгости Clickhouse. Вроде бы доке все описано довольно подробно: PARTITION… Но!
Но, от меня укрылась одна особенность, которой хочу поделиться. В общем случае, как оказалось, ключ партиции (системная колонка _partition_id из рассматриваемой таблички) может не совпадать с наименованием партиции (partition из system.parts). При этом, наименование партиции может быть как строкой, так и числом, так и кортежем (tuple).
При этом в различных операциях с партициями поддерживаются различные варианты указания партиции (см. доку выше), но вот в операции ALTER TABLE DELETE IN PARTITION ожидается представление из system.parts. При этом, в зависимости от типа данных там может быть как число, так и строка. Просто рай для автоматизации!
Для себя выбрал решение брать значение из системной колонки _partition_value, приведенное к строке через toString. Пока каких-то проблем не поймали.
P.S. Что была за проблема? Я брал название партиции из системной колонки _partition_id. Во всех интеграциях операция отрабатывала нормально кроме одной. При этом никаких сообщений об ошибках не было. Данные просто не удалялись, так как партиции с именем _partition_id не существовало. Вот так по тихому, без ошибок, плодились задвоения данных.
Clickhouse
Управление партициями и частями | ClickHouse Docs
Документация для Partition
Data Engineer
Наткнулся на "The Top Data Trends for 2025" от доселе неизвестных мне товарищей, объединенных общим именем Coalesce. Интересно, что из этого станет обыденностью🤔 Отчет пока не читал, но добавил в очередь, так что, ежели кто меня опередит, делитесь впечатлениями.…
В конце 2024 года компания Coalesce попросила ведущих мировых экспертов в области больших данных и искусственного интеллекта порассуждать на тему тенденций развития мира данных в наступающем тогда еще 2025 году, объединив сии оценочные суждения в один документ, до которого у меня, наконец-то руки дошли.
Вот что нас ожидает в этом году по мнению экспертов (как обычно в моей авторской «интертрепации»)
🟢Пластмассовый мир Разум Data Mesh, наконец-то, победит, ибо ИИ не заменит дата-специалистов, а наоборот, поспособствует распространению внутри компаний децентрализованных кросс-функциональных команд (еще один тревожный звоночек игнорирующим тренды адептам узкой специализации). Все больше компаний будут думать о данных как о продукте, а не активе.
🟢 SQL — навсегда! Это лучший язык для работы с большими наборами данных.
🟢 Разрыв между IT и бизнесом будет сокращаться, а взаимное проникновение - расти. Сбудется мечта Макара Нагульнова: «Все будут личиками приятно-смуглявые, и все одинаковые». Айтишники все чаще будут переходить в бизнес и наоборот.
🟢 «Рушить догмы — лучший способ не стареть». Грядет время «спринтеров», моментально реагирующих на стартовый сигнал и срывающихся с низкого старта навстречу новой задаче с новым решением.
🟢 Наступил век открытых табличных форматов, и Apache Iceberg - пророк его.
🟢 Автоматизация автоматизации. Автоматизацией рутинных ручных процессов по обработке и очистке данных при помощи конвейеров данных сейчас вряд ли кого-то удивишь. А вот автоматизация создания таких конвейеров - дело относительно новое, к тому же за дело берется ИИ.
Проверим-проверим...
Вот что нас ожидает в этом году по мнению экспертов (как обычно в моей авторской «интертрепации»)
🟢
🟢 SQL — навсегда! Это лучший язык для работы с большими наборами данных.
🟢 Разрыв между IT и бизнесом будет сокращаться, а взаимное проникновение - расти. Сбудется мечта Макара Нагульнова: «Все будут личиками приятно-смуглявые, и все одинаковые». Айтишники все чаще будут переходить в бизнес и наоборот.
🟢 «Рушить догмы — лучший способ не стареть». Грядет время «спринтеров», моментально реагирующих на стартовый сигнал и срывающихся с низкого старта навстречу новой задаче с новым решением.
🟢 Наступил век открытых табличных форматов, и Apache Iceberg - пророк его.
🟢 Автоматизация автоматизации. Автоматизацией рутинных ручных процессов по обработке и очистке данных при помощи конвейеров данных сейчас вряд ли кого-то удивишь. А вот автоматизация создания таких конвейеров - дело относительно новое, к тому же за дело берется ИИ.
Проверим-проверим...
👍6