Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.82K subscribers
570 photos
3 videos
2 files
2.93K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Netflix. Архитектура системы персонализации и рекомендаций

Перевод неточный, некоторые куски пропущены, так как показались мне повторением уже высказанных выше мыслей, некоторые - уточнены и дополнены примерами.

В предыдущих постах о персонализации в Netflix уже говорилось о том, что и данные, и алгоритмы их обработки одинаковы важны в задаче персонализации пользовательского опыта. Также важно вовлекать пользователя в систему рекомендаций - получать от него так больше откликов и данных. Сегодня мы поговорим о том, как может выглядеть архитектура, которая может максимизировать пользу от собираемых данных и поддерживает возможность быстрого внедрения нововведений.


Читать: https://habr.com/ru/post/672324/
Use the AWS Glue connector to read and write Apache Iceberg tables with ACID transactions and perform time travel

Read: https://aws.amazon.com/blogs/big-data/use-the-aws-glue-connector-to-read-and-write-apache-iceberg-tables-with-acid-transactions-and-perform-time-travel/
Explore data with filters (Part 3)

Filters are a powerful interaction paradigm for users to explore data and perform analysis. Filters enable users to get from data to insights, to reduce noise in the data, and to slice and dice data by different dimensions. This article highlights filter capabilities in Oracle Analytics.

Read: https://blogs.oracle.com/analytics/post/explore-data-with-filters-part-3
👍1
Что делать с дрейфом данных и концепций в продакшен-системах машинного обучения

Когда вы запускаете ML-систему в продакшен-среде, все только начинается. С системой могут возникнуть проблемы, и вам придется с ними разбираться.
Команда VK Cloud Solutions перевела статью о том, что делать с дрейфом данных и концепций: откуда берутся проблемы, как их распознать и предотвратить.


Читать: https://habr.com/ru/post/671896/
Как мы составили Словарь больших данных для тех, кто не в теме бигдаты

Я Павел Свиридонов, гуманитарий, который вместо известной сети быстрого питания попал в IT-компанию. У меня нет технического образования, и я всё ещё не до конца понимаю, как работает интернет. Но как выяснилось, не только я хлопаю ресницами и пытаюсь улететь с совещаний, где речь заходит про…

Впрочем, вот краткая предыстория. Однажды мой приятель — проджект в одной компании и бывший учитель английского, пожаловался: «На созвонах, где речь про бигдату заходит, я ничего не понимаю!» И это прям эхом отозвалось в моей душе: увы, но у меня с пониманием больших данных дела обстояли не лучше. Да что там: признаюсь, когда наши дата-инженеры начинали говорить, мне казалось, что беседа вдруг перешла на эльфийский.

Обидно!

И вот, отчасти чтобы помочь другим гуманитариям, отчасти чтобы разобраться в теме самому, я задумал маленькую контентную революцию: составить Словарь больших данных! Но такой, чтобы собранные в нём основные термины по бигдате, объяснялись просто, на бытовых примерах, понятных любому человеку, независимо от образования и профессии.


Читать: https://habr.com/ru/post/672804/
3
Tableau vs FineBI. Часть I: особенности платформ и работа с данными

Китайские решения для российского рынка пока являются своего рода terra incognita. Даже если решение уже зарекомендовало себя и у пользователей за пределами Китая, и у аналитиков (а именно так, судя по всему, происходит с Fine BI), всегда ждешь подвоха. Логичный выход – «пощупать» руками и сравнить с чем-то уже хорошо известным.

Так поступили и мы. Так как платформа Fine BI по предлагаемому функционалу близка к хорошо известной нам Tableau, мы решили сравнить их. Наша цель – понять, насколько глубоки и критичны отличия и есть ли у китайской BI преимущества или она серьезно уступает Tableau. По каждому пункту поставим оценки по пятибалльной системе.


Читать: https://habr.com/ru/post/672864/
Create cross-account, custom Amazon Managed Grafana dashboards for Amazon Redshift

Read: https://aws.amazon.com/blogs/big-data/create-cross-account-custom-amazon-managed-grafana-dashboards-for-amazon-redshift/
Accelerate Amazon DynamoDB data access in AWS Glue jobs using the new AWS Glue DynamoDB Export connector

Read: https://aws.amazon.com/blogs/big-data/accelerate-amazon-dynamodb-data-access-in-aws-glue-jobs-using-the-new-aws-glue-dynamodb-elt-connector/
Supply Chain automation или как автоматизировать цепочки поставок

В этой статье речь пойдет о предиктивном определении поставки товарно-материальных ценностей в сеть фронт-офисов банка. Проще говоря, об автоматизированной организации снабжения отделений бумагой, канцтоварами и другими расходными материалами.

Этот процесс называется автопополнение и состоит из следующих этапов – прогнозирование потребности в центре снабжения, формирование заказа там же, согласование и корректировка потребности розничным блоком и непосредственно поставка. Слабое место здесь – необходимость ручной корректировки и последующего согласования объема поставки менеджерами логистики и руководителями подразделений.

Какой этап в этой цепочке можно оптимизировать? Во время формирования заказа менеджеры логистики рассчитывают количество товаров к поставке, основываясь на ретро-данных, данных о срочных заказах и своем экспертном опыте. При этом руководители отделений, чтобы обосновать потребность в тех или иных товарах, должны отслеживать их расход и понимать текущие запасы в отделении. Если мы научимся определять точную потребность в товарах и автоматизируем этот расчет, то этапы формирования и корректировки заказа будут занимать гораздо меньше времени или даже станут вовсе не нужны.

Задача прогнозирования потребления

Есть очень похожая и более распространенная задача в розничной торговле: сколько каких товаров нужно поставить в магазин Х в момент времени У? Задача решается относительно просто: зная потребление товара во времени из чеков и запасы товара на складе, можно вычислить будущую поставку напрямую. Поставить нужно столько, сколько предположительно продадут, за минусом запаса.


Читать: https://habr.com/ru/post/673336/
👍2
Configure an automated email sync for federated SSO users to access Amazon QuickSight

Read: https://aws.amazon.com/blogs/big-data/configure-an-automated-email-sync-for-federated-sso-users-to-access-amazon-quicksight/
Loginom+BI2BUSINESS+Visiology: технологическое партнерство — путь российского BI?

Сегодня у нас есть отличный повод снова вернуться к вопросу развития российского BI. Совместное решение от Loginom и BI2BUSINESS, по заявлениям его создателей, позволяет упростить внедрение BI на базе платформы Visiology для целого ряда часто встречающихся задач. Подробности о новой интеграции специалисты обещают раскрыть в ходе вебинара, а несколько мыслей о важности этого события вы найдете под катом.
Узнать больше

Читать: https://habr.com/ru/post/661795/
Build a high-performance, ACID compliant, evolving data lake using Apache Iceberg on Amazon EMR

Read: https://aws.amazon.com/blogs/big-data/build-a-high-performance-acid-compliant-evolving-data-lake-using-apache-iceberg-on-amazon-emr/
Converting Columns to DateTime in Oracle Analytics Cloud

Oracle Analytics Cloud (OAC) offers powerful in-house data profiling capabilities. This blog will be dedicated to converting a column from an attribute field to a DateTime field.

Read: https://blogs.oracle.com/analytics/post/converting-text-columns-to-datetime-in-oac
Игры для самых больших: песочница данных и её безопасность

Говорят, что большие данные — новая нефть. В этом есть глубокая аналогия: каждый день большим данным находят всё новые и новые применения. Но есть и отличие: из двух бочек нефти можно сделать то же, что и из одной, только в два раза больше. А вот объединив два датасета, порой можно обнаружить удивительные вещи, не содержавшиеся ни в одном из них отдельно.

Однако нельзя просто так взять и отдать свои данные кому попало. То, что может принести пользу, могут использовать и во вред. Данные, которые компании генерируют в процессе своей работы, часто (или вообще всегда) содержат чувствительную информацию о клиентах, финансах и тому подобном. Синергия данных сулит большую выгоду, но как извлечь её без риска?

Именно эту проблему решает песочница данных, созданная Ассоциацией больших данных. В ней большие игроки могут обмениваться своими игрушками, не опасаясь, что их отберут хулиганы. Почему они могут не опасаться — читайте под катом.


Читать: https://habr.com/ru/post/673864/
Что я узнал на конференции DataOps Unleashed 2022

DataOps Unleashed — конференция, на которой обсуждают DataOps, CloudOps и AIOps, лекторы рассказывают об актуальных тенденциях и передовых методах запуска, управления и мониторинга пайплайнов данных и аналитических рабочих нагрузках.

Команда VK Cloud Solutions перевела конспект выступлений, которые показались полезны автору статьи. DataOps-специалисты ведущих ИТ-компаний объясняли, как они устанавливают предсказуемость данных, повышают достоверность и снижают расходы на работу с пайплайнами.


Читать: https://habr.com/ru/post/673320/
Как собрать отчет в Yandex DataLens быстро и почти просто

Google Data Studio это, конечно, хорошо, но у нас есть свой чудесный аналог - похожий инструмент от одной из передовых ИТ-компаний РФ Yandex Datalens. Сегодня в паре абзацев попробуем быстро собрать отчет, аналогичный материалу про Data Studio. Спойлер: это не так просто, как кажется на первый взгляд. Но давайте разбираться.


Читать: https://habr.com/ru/post/674038/