NEW BOT Телеграм, страница

Data Analysis / Big Data

Создание Data Lake и Warehouse на GCP

Эта статья не будет технически глубокой. Мы поговорим о Data Lake и Data Warehouse, важных принципах, которые следует учитывать, и о том, какие сервисы GCP можно использовать для создания такой системы. Мы коснёмся каждого из GCP сервисов и поймём почему они будут полезны при создании Data Lake и Warehouse.

Прежде чем перейти к своей версии Data Lake и Data Warehouse, я хотел бы привести несколько известных архитектур, с которыми вы, возможно, уже знакомы, если интересуетесь этой темой. Архитектура, которую я бы предложил, будет более общей, чем эти: Cloud Storage as a data lake и Architecture: Marketing Data Warehouse.

В своей более общей версии Data Lake и Data Warehouse я расскажу о таких сервисах GCP, как Data Transfer Service, Dataproc, Cloud Storage, Cloud Scheduler, BigQuery, и Cloud SQL.

Читать: https://habr.com/ru/post/672280/

683 views16:59

Data Analysis / Big Data

Data Engineering Weekly #89

Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-89

689 views03:13

Data Analysis / Big Data

Netflix. Архитектура системы персонализации и рекомендаций

Перевод неточный, некоторые куски пропущены, так как показались мне повторением уже высказанных выше мыслей, некоторые - уточнены и дополнены примерами.

В предыдущих постах о персонализации в Netflix уже говорилось о том, что и данные, и алгоритмы их обработки одинаковы важны в задаче персонализации пользовательского опыта. Также важно вовлекать пользователя в систему рекомендаций - получать от него так больше откликов и данных. Сегодня мы поговорим о том, как может выглядеть архитектура, которая может максимизировать пользу от собираемых данных и поддерживает возможность быстрого внедрения нововведений.

Читать: https://habr.com/ru/post/672324/

858 views08:03

Data Analysis / Big Data

Use the AWS Glue connector to read and write Apache Iceberg tables with ACID transactions and perform time travel

Read: https://aws.amazon.com/blogs/big-data/use-the-aws-glue-connector-to-read-and-write-apache-iceberg-tables-with-acid-transactions-and-perform-time-travel/

637 views18:51

Data Analysis / Big Data

Explore data with filters (Part 3)

Filters are a powerful interaction paradigm for users to explore data and perform analysis. Filters enable users to get from data to insights, to reduce noise in the data, and to slice and dice data by different dimensions. This article highlights filter capabilities in Oracle Analytics.

Read: https://blogs.oracle.com/analytics/post/explore-data-with-filters-part-3

Oracle

Explore data with filters (Part 3)

Filters are a powerful interaction paradigm for users to explore data and perform analysis. Filters enable users to get from data to insights, to reduce noise in the data, and to slice and dice data by different dimensions. This article highlights filter…

👍1

655 views00:11

Data Analysis / Big Data

Что делать с дрейфом данных и концепций в продакшен-системах машинного обучения

Когда вы запускаете ML-систему в продакшен-среде, все только начинается. С системой могут возникнуть проблемы, и вам придется с ними разбираться.
Команда VK Cloud Solutions перевела статью о том, что делать с дрейфом данных и концепций: откуда берутся проблемы, как их распознать и предотвратить.

Читать: https://habr.com/ru/post/671896/

587 views08:27

Data Analysis / Big Data

Как мы составили Словарь больших данных для тех, кто не в теме бигдаты

Я Павел Свиридонов, гуманитарий, который вместо известной сети быстрого питания попал в IT-компанию. У меня нет технического образования, и я всё ещё не до конца понимаю, как работает интернет. Но как выяснилось, не только я хлопаю ресницами и пытаюсь улететь с совещаний, где речь заходит про…

Впрочем, вот краткая предыстория. Однажды мой приятель — проджект в одной компании и бывший учитель английского, пожаловался: «На созвонах, где речь про бигдату заходит, я ничего не понимаю!» И это прям эхом отозвалось в моей душе: увы, но у меня с пониманием больших данных дела обстояли не лучше. Да что там: признаюсь, когда наши дата-инженеры начинали говорить, мне казалось, что беседа вдруг перешла на эльфийский.

Обидно!

И вот, отчасти чтобы помочь другим гуманитариям, отчасти чтобы разобраться в теме самому, я задумал маленькую контентную революцию: составить Словарь больших данных! Но такой, чтобы собранные в нём основные термины по бигдате, объяснялись просто, на бытовых примерах, понятных любому человеку, независимо от образования и профессии.

Читать: https://habr.com/ru/post/672804/

❤3

636 views09:45

Data Analysis / Big Data

Tableau vs FineBI. Часть I: особенности платформ и работа с данными

Китайские решения для российского рынка пока являются своего рода terra incognita. Даже если решение уже зарекомендовало себя и у пользователей за пределами Китая, и у аналитиков (а именно так, судя по всему, происходит с Fine BI), всегда ждешь подвоха. Логичный выход – «пощупать» руками и сравнить с чем-то уже хорошо известным.

Так поступили и мы. Так как платформа Fine BI по предлагаемому функционалу близка к хорошо известной нам Tableau, мы решили сравнить их. Наша цель – понять, насколько глубоки и критичны отличия и есть ли у китайской BI преимущества или она серьезно уступает Tableau. По каждому пункту поставим оценки по пятибалльной системе.

Читать: https://habr.com/ru/post/672864/

635 views11:47

Data Analysis / Big Data

Book review: Don't Trust Your Gut

Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/06/book-review-dont-trust-your-gut.html

637 views14:10

Data Analysis / Big Data

Create cross-account, custom Amazon Managed Grafana dashboards for Amazon Redshift

Read: https://aws.amazon.com/blogs/big-data/create-cross-account-custom-amazon-managed-grafana-dashboards-for-amazon-redshift/

977 views21:30

Data Analysis / Big Data

Stream change data to Amazon Kinesis Data Streams with AWS DMS

Read: https://aws.amazon.com/blogs/big-data/stream-change-data-to-amazon-kinesis-data-streams-with-aws-dms/

640 views16:57

Data Analysis / Big Data

Accelerate Amazon DynamoDB data access in AWS Glue jobs using the new AWS Glue DynamoDB Export connector

Read: https://aws.amazon.com/blogs/big-data/accelerate-amazon-dynamodb-data-access-in-aws-glue-jobs-using-the-new-aws-glue-dynamodb-elt-connector/

609 views16:47

Data Analysis / Big Data

Supply Chain automation или как автоматизировать цепочки поставок

В этой статье речь пойдет о предиктивном определении поставки товарно-материальных ценностей в сеть фронт-офисов банка. Проще говоря, об автоматизированной организации снабжения отделений бумагой, канцтоварами и другими расходными материалами.

Этот процесс называется автопополнение и состоит из следующих этапов – прогнозирование потребности в центре снабжения, формирование заказа там же, согласование и корректировка потребности розничным блоком и непосредственно поставка. Слабое место здесь – необходимость ручной корректировки и последующего согласования объема поставки менеджерами логистики и руководителями подразделений.

Какой этап в этой цепочке можно оптимизировать? Во время формирования заказа менеджеры логистики рассчитывают количество товаров к поставке, основываясь на ретро-данных, данных о срочных заказах и своем экспертном опыте. При этом руководители отделений, чтобы обосновать потребность в тех или иных товарах, должны отслеживать их расход и понимать текущие запасы в отделении. Если мы научимся определять точную потребность в товарах и автоматизируем этот расчет, то этапы формирования и корректировки заказа будут занимать гораздо меньше времени или даже станут вовсе не нужны.

Задача прогнозирования потребления

Есть очень похожая и более распространенная задача в розничной торговле: сколько каких товаров нужно поставить в магазин Х в момент времени У? Задача решается относительно просто: зная потребление товара во времени из чеков и запасы товара на складе, можно вычислить будущую поставку напрямую. Поставить нужно столько, сколько предположительно продадут, за минусом запаса.

Читать: https://habr.com/ru/post/673336/

👍2

670 views16:57

Data Analysis / Big Data

Configure an automated email sync for federated SSO users to access Amazon QuickSight

Read: https://aws.amazon.com/blogs/big-data/configure-an-automated-email-sync-for-federated-sso-users-to-access-amazon-quicksight/

693 views17:47

Data Analysis / Big Data

Loginom+BI2BUSINESS+Visiology: технологическое партнерство — путь российского BI?

Сегодня у нас есть отличный повод снова вернуться к вопросу развития российского BI. Совместное решение от Loginom и BI2BUSINESS, по заявлениям его создателей, позволяет упростить внедрение BI на базе платформы Visiology для целого ряда часто встречающихся задач. Подробности о новой интеграции специалисты обещают раскрыть в ходе вебинара, а несколько мыслей о важности этого события вы найдете под катом.
Узнать больше

Читать: https://habr.com/ru/post/661795/

707 views12:06

Data Analysis / Big Data

Data Engineering Weekly #90

Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-90

660 views21:06

Data Analysis / Big Data

Build a high-performance, ACID compliant, evolving data lake using Apache Iceberg on Amazon EMR

Read: https://aws.amazon.com/blogs/big-data/build-a-high-performance-acid-compliant-evolving-data-lake-using-apache-iceberg-on-amazon-emr/

621 views21:35

Data Analysis / Big Data

Converting Columns to DateTime in Oracle Analytics Cloud

Oracle Analytics Cloud (OAC) offers powerful in-house data profiling capabilities. This blog will be dedicated to converting a column from an attribute field to a DateTime field.

Read: https://blogs.oracle.com/analytics/post/converting-text-columns-to-datetime-in-oac

Oracle

Converting Columns to DateTime in Oracle Analytics Cloud

Oracle Analytics Cloud (OAC) offers powerful in-house data profiling capabilities. This blog describes how to convert a column from an attribute field to a DateTime field.

623 views00:36

Data Analysis / Big Data

Игры для самых больших: песочница данных и её безопасность

Говорят, что большие данные — новая нефть. В этом есть глубокая аналогия: каждый день большим данным находят всё новые и новые применения. Но есть и отличие: из двух бочек нефти можно сделать то же, что и из одной, только в два раза больше. А вот объединив два датасета, порой можно обнаружить удивительные вещи, не содержавшиеся ни в одном из них отдельно.

Однако нельзя просто так взять и отдать свои данные кому попало. То, что может принести пользу, могут использовать и во вред. Данные, которые компании генерируют в процессе своей работы, часто (или вообще всегда) содержат чувствительную информацию о клиентах, финансах и тому подобном. Синергия данных сулит большую выгоду, но как извлечь её без риска?

Именно эту проблему решает песочница данных, созданная Ассоциацией больших данных. В ней большие игроки могут обмениваться своими игрушками, не опасаясь, что их отберут хулиганы. Почему они могут не опасаться — читайте под катом.

Читать: https://habr.com/ru/post/673864/

616 views12:29

Data Analysis / Big Data

Disaster recovery considerations with Amazon EMR on Amazon EC2 for Spark workloads

Read: https://aws.amazon.com/blogs/big-data/disaster-recovery-considerations-with-amazon-emr-on-amazon-ec2-for-spark-workloads/

579 views16:07

Data Analysis / Big Data

Migrate from Snowflake to Amazon Redshift using AWS Glue Python shell

Read: https://aws.amazon.com/blogs/big-data/migrate-from-snowflake-to-amazon-redshift-using-aws-glue-python-shell/

609 views16:07

About

Blog

Apps

Platform