Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.81K subscribers
570 photos
3 videos
2 files
2.93K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
DataVault на Greenplum с помощью DBT

Привет, Хабр!

Меня зовут Марк Порошин, я занимаюсь DataScience в DV Group. Недавно я уже рассказывал про то, как начать трансформировать данные с помощью dbt. Сегодня я решил поделиться, как мы в DV Group поженили dbt, Greenplum и DataVault, собрали все грабли, что могли; немного поконтрибьютили в open-source, но по итогу остались очень довольны результатом.

Расскажу сначала пару слов о том, что такое DataVault. DataVault - методология построения хранилища, предполагающая высокую нормализацию данных (3ая нормальная форма). Основными ее компонентами являются:


Читать: https://habr.com/ru/post/671836/
Создание современной платформы для работы с данными с помощью Open-Source-решений

Команда VK Cloud Solutions перевела краткий конспект с Open Source Data Stack Conference. Конференция была посвящена созданию платформ для работы с данными на базе Open-Source-решений —докладчики представляли свои идеи и технологии на примере вымышленной базы данных интернет-магазина.

Автор пересказывает выступления о том, как с помощью ПО с открытым исходным кодом можно контролировать потоки клиентских данных в компании, решать задачи управления данными, Data Privacy, повышения эффективности работы Data-специалистов.


Читать: https://habr.com/ru/post/671642/
Нейронная сеть для ведения боевых действий. Какая война может быть с технологически развитой страной?

Ежеминутные военные сводки наших СМИ непроизвольно в голове программиста преобразуются в технологические решения. Заранее скажем, что мы не выдаем военных тайн ничьих стран, а только излагаем наше видение автоматизации процесса. Хотя всегда надо помнить поговорку от компании Спецлаб: если к тебе пришла умная мысль, значит, она уже кем-то реализована.
В атаку!

Читать: https://habr.com/ru/post/671948/
🤮1
ChainOps или DevOps

В настоящее время все в пространстве DevOps связано со словом, оканчивающимся на ops: GitOps, AIOps, MLOps, DevSecOps, EverythingOps. Хотя, возможно, это уже упоминалось в другом месте, я хочу написать некоторые точки зрения о том, как применять процессы DevOps к блокчейнам и/или технологиям распределенного реестра ( DLT ).

Например, просто для описания одного из этих так называемых терминов «эксплуатация»: «GitOps — это операционная среда, которая использует лучшие практики DevOps, используемые для разработки приложений, такие как контроль версий, совместная работа, соответствие требованиям и CI/CD, и применяет их к автоматизации инфраструктуры. [1]. Сразу приходят на ум инструменты инфраструктуры как кода, такие как Terraform.

ChainOps (с моей точки зрения) следует использовать для описания методов DevOps, выполняемых прямо в пространстве блокчейна.

В децентрализованном мире основным участником разработки приложений или Dapps (децентрализованных приложений) является узел , узел в DLT (технология распределенного реестра) — это минимальный компонент инфраструктуры, способный запускать необходимое программное обеспечение, чтобы быть функциональной частью. бухгалтерской книги.

Таким образом, Devops должен отвечать за то, чтобы каждый узел имел одинаковые сетевые и инфраструктурные возможности (например, ОЗУ, ЦП, пропускную способность), а также одинаковые версии пакетов программного обеспечения. (Например, версии биткойн-ядра или версии DappNode)

Автоматизированные рабочие процессы DevOps должны отвечать за доставку и интеграцию не только версий основного узла, но и другого программного обеспечения, необходимого для Dapp .


Читать: https://habr.com/ru/post/672108/
👍1
Создание Data Lake и Warehouse на GCP

Эта статья не будет технически глубокой. Мы поговорим о Data Lake и Data Warehouse, важных принципах, которые следует учитывать, и о том, какие сервисы GCP можно использовать для создания такой системы. Мы коснёмся каждого из GCP сервисов и поймём почему они будут полезны при создании Data Lake и Warehouse.

Прежде чем перейти к своей версии Data Lake и Data Warehouse, я хотел бы привести несколько известных архитектур, с которыми вы, возможно, уже знакомы, если интересуетесь этой темой. Архитектура, которую я бы предложил, будет более общей, чем эти: Cloud Storage as a data lake и Architecture: Marketing Data Warehouse.

В своей более общей версии Data Lake и Data Warehouse я расскажу о таких сервисах GCP, как Data Transfer Service, Dataproc, Cloud Storage, Cloud Scheduler, BigQuery, и Cloud SQL.


Читать: https://habr.com/ru/post/672280/
Netflix. Архитектура системы персонализации и рекомендаций

Перевод неточный, некоторые куски пропущены, так как показались мне повторением уже высказанных выше мыслей, некоторые - уточнены и дополнены примерами.

В предыдущих постах о персонализации в Netflix уже говорилось о том, что и данные, и алгоритмы их обработки одинаковы важны в задаче персонализации пользовательского опыта. Также важно вовлекать пользователя в систему рекомендаций - получать от него так больше откликов и данных. Сегодня мы поговорим о том, как может выглядеть архитектура, которая может максимизировать пользу от собираемых данных и поддерживает возможность быстрого внедрения нововведений.


Читать: https://habr.com/ru/post/672324/
Use the AWS Glue connector to read and write Apache Iceberg tables with ACID transactions and perform time travel

Read: https://aws.amazon.com/blogs/big-data/use-the-aws-glue-connector-to-read-and-write-apache-iceberg-tables-with-acid-transactions-and-perform-time-travel/
Explore data with filters (Part 3)

Filters are a powerful interaction paradigm for users to explore data and perform analysis. Filters enable users to get from data to insights, to reduce noise in the data, and to slice and dice data by different dimensions. This article highlights filter capabilities in Oracle Analytics.

Read: https://blogs.oracle.com/analytics/post/explore-data-with-filters-part-3
👍1
Что делать с дрейфом данных и концепций в продакшен-системах машинного обучения

Когда вы запускаете ML-систему в продакшен-среде, все только начинается. С системой могут возникнуть проблемы, и вам придется с ними разбираться.
Команда VK Cloud Solutions перевела статью о том, что делать с дрейфом данных и концепций: откуда берутся проблемы, как их распознать и предотвратить.


Читать: https://habr.com/ru/post/671896/
Как мы составили Словарь больших данных для тех, кто не в теме бигдаты

Я Павел Свиридонов, гуманитарий, который вместо известной сети быстрого питания попал в IT-компанию. У меня нет технического образования, и я всё ещё не до конца понимаю, как работает интернет. Но как выяснилось, не только я хлопаю ресницами и пытаюсь улететь с совещаний, где речь заходит про…

Впрочем, вот краткая предыстория. Однажды мой приятель — проджект в одной компании и бывший учитель английского, пожаловался: «На созвонах, где речь про бигдату заходит, я ничего не понимаю!» И это прям эхом отозвалось в моей душе: увы, но у меня с пониманием больших данных дела обстояли не лучше. Да что там: признаюсь, когда наши дата-инженеры начинали говорить, мне казалось, что беседа вдруг перешла на эльфийский.

Обидно!

И вот, отчасти чтобы помочь другим гуманитариям, отчасти чтобы разобраться в теме самому, я задумал маленькую контентную революцию: составить Словарь больших данных! Но такой, чтобы собранные в нём основные термины по бигдате, объяснялись просто, на бытовых примерах, понятных любому человеку, независимо от образования и профессии.


Читать: https://habr.com/ru/post/672804/
3
Tableau vs FineBI. Часть I: особенности платформ и работа с данными

Китайские решения для российского рынка пока являются своего рода terra incognita. Даже если решение уже зарекомендовало себя и у пользователей за пределами Китая, и у аналитиков (а именно так, судя по всему, происходит с Fine BI), всегда ждешь подвоха. Логичный выход – «пощупать» руками и сравнить с чем-то уже хорошо известным.

Так поступили и мы. Так как платформа Fine BI по предлагаемому функционалу близка к хорошо известной нам Tableau, мы решили сравнить их. Наша цель – понять, насколько глубоки и критичны отличия и есть ли у китайской BI преимущества или она серьезно уступает Tableau. По каждому пункту поставим оценки по пятибалльной системе.


Читать: https://habr.com/ru/post/672864/
Create cross-account, custom Amazon Managed Grafana dashboards for Amazon Redshift

Read: https://aws.amazon.com/blogs/big-data/create-cross-account-custom-amazon-managed-grafana-dashboards-for-amazon-redshift/
Accelerate Amazon DynamoDB data access in AWS Glue jobs using the new AWS Glue DynamoDB Export connector

Read: https://aws.amazon.com/blogs/big-data/accelerate-amazon-dynamodb-data-access-in-aws-glue-jobs-using-the-new-aws-glue-dynamodb-elt-connector/
Supply Chain automation или как автоматизировать цепочки поставок

В этой статье речь пойдет о предиктивном определении поставки товарно-материальных ценностей в сеть фронт-офисов банка. Проще говоря, об автоматизированной организации снабжения отделений бумагой, канцтоварами и другими расходными материалами.

Этот процесс называется автопополнение и состоит из следующих этапов – прогнозирование потребности в центре снабжения, формирование заказа там же, согласование и корректировка потребности розничным блоком и непосредственно поставка. Слабое место здесь – необходимость ручной корректировки и последующего согласования объема поставки менеджерами логистики и руководителями подразделений.

Какой этап в этой цепочке можно оптимизировать? Во время формирования заказа менеджеры логистики рассчитывают количество товаров к поставке, основываясь на ретро-данных, данных о срочных заказах и своем экспертном опыте. При этом руководители отделений, чтобы обосновать потребность в тех или иных товарах, должны отслеживать их расход и понимать текущие запасы в отделении. Если мы научимся определять точную потребность в товарах и автоматизируем этот расчет, то этапы формирования и корректировки заказа будут занимать гораздо меньше времени или даже станут вовсе не нужны.

Задача прогнозирования потребления

Есть очень похожая и более распространенная задача в розничной торговле: сколько каких товаров нужно поставить в магазин Х в момент времени У? Задача решается относительно просто: зная потребление товара во времени из чеков и запасы товара на складе, можно вычислить будущую поставку напрямую. Поставить нужно столько, сколько предположительно продадут, за минусом запаса.


Читать: https://habr.com/ru/post/673336/
👍2
Configure an automated email sync for federated SSO users to access Amazon QuickSight

Read: https://aws.amazon.com/blogs/big-data/configure-an-automated-email-sync-for-federated-sso-users-to-access-amazon-quicksight/
Loginom+BI2BUSINESS+Visiology: технологическое партнерство — путь российского BI?

Сегодня у нас есть отличный повод снова вернуться к вопросу развития российского BI. Совместное решение от Loginom и BI2BUSINESS, по заявлениям его создателей, позволяет упростить внедрение BI на базе платформы Visiology для целого ряда часто встречающихся задач. Подробности о новой интеграции специалисты обещают раскрыть в ходе вебинара, а несколько мыслей о важности этого события вы найдете под катом.
Узнать больше

Читать: https://habr.com/ru/post/661795/