Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.82K subscribers
570 photos
3 videos
2 files
2.93K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Create cross-account, custom Amazon Managed Grafana dashboards for Amazon Redshift

Read: https://aws.amazon.com/blogs/big-data/create-cross-account-custom-amazon-managed-grafana-dashboards-for-amazon-redshift/
Accelerate Amazon DynamoDB data access in AWS Glue jobs using the new AWS Glue DynamoDB Export connector

Read: https://aws.amazon.com/blogs/big-data/accelerate-amazon-dynamodb-data-access-in-aws-glue-jobs-using-the-new-aws-glue-dynamodb-elt-connector/
Supply Chain automation или как автоматизировать цепочки поставок

В этой статье речь пойдет о предиктивном определении поставки товарно-материальных ценностей в сеть фронт-офисов банка. Проще говоря, об автоматизированной организации снабжения отделений бумагой, канцтоварами и другими расходными материалами.

Этот процесс называется автопополнение и состоит из следующих этапов – прогнозирование потребности в центре снабжения, формирование заказа там же, согласование и корректировка потребности розничным блоком и непосредственно поставка. Слабое место здесь – необходимость ручной корректировки и последующего согласования объема поставки менеджерами логистики и руководителями подразделений.

Какой этап в этой цепочке можно оптимизировать? Во время формирования заказа менеджеры логистики рассчитывают количество товаров к поставке, основываясь на ретро-данных, данных о срочных заказах и своем экспертном опыте. При этом руководители отделений, чтобы обосновать потребность в тех или иных товарах, должны отслеживать их расход и понимать текущие запасы в отделении. Если мы научимся определять точную потребность в товарах и автоматизируем этот расчет, то этапы формирования и корректировки заказа будут занимать гораздо меньше времени или даже станут вовсе не нужны.

Задача прогнозирования потребления

Есть очень похожая и более распространенная задача в розничной торговле: сколько каких товаров нужно поставить в магазин Х в момент времени У? Задача решается относительно просто: зная потребление товара во времени из чеков и запасы товара на складе, можно вычислить будущую поставку напрямую. Поставить нужно столько, сколько предположительно продадут, за минусом запаса.


Читать: https://habr.com/ru/post/673336/
👍2
Configure an automated email sync for federated SSO users to access Amazon QuickSight

Read: https://aws.amazon.com/blogs/big-data/configure-an-automated-email-sync-for-federated-sso-users-to-access-amazon-quicksight/
Loginom+BI2BUSINESS+Visiology: технологическое партнерство — путь российского BI?

Сегодня у нас есть отличный повод снова вернуться к вопросу развития российского BI. Совместное решение от Loginom и BI2BUSINESS, по заявлениям его создателей, позволяет упростить внедрение BI на базе платформы Visiology для целого ряда часто встречающихся задач. Подробности о новой интеграции специалисты обещают раскрыть в ходе вебинара, а несколько мыслей о важности этого события вы найдете под катом.
Узнать больше

Читать: https://habr.com/ru/post/661795/
Build a high-performance, ACID compliant, evolving data lake using Apache Iceberg on Amazon EMR

Read: https://aws.amazon.com/blogs/big-data/build-a-high-performance-acid-compliant-evolving-data-lake-using-apache-iceberg-on-amazon-emr/
Converting Columns to DateTime in Oracle Analytics Cloud

Oracle Analytics Cloud (OAC) offers powerful in-house data profiling capabilities. This blog will be dedicated to converting a column from an attribute field to a DateTime field.

Read: https://blogs.oracle.com/analytics/post/converting-text-columns-to-datetime-in-oac
Игры для самых больших: песочница данных и её безопасность

Говорят, что большие данные — новая нефть. В этом есть глубокая аналогия: каждый день большим данным находят всё новые и новые применения. Но есть и отличие: из двух бочек нефти можно сделать то же, что и из одной, только в два раза больше. А вот объединив два датасета, порой можно обнаружить удивительные вещи, не содержавшиеся ни в одном из них отдельно.

Однако нельзя просто так взять и отдать свои данные кому попало. То, что может принести пользу, могут использовать и во вред. Данные, которые компании генерируют в процессе своей работы, часто (или вообще всегда) содержат чувствительную информацию о клиентах, финансах и тому подобном. Синергия данных сулит большую выгоду, но как извлечь её без риска?

Именно эту проблему решает песочница данных, созданная Ассоциацией больших данных. В ней большие игроки могут обмениваться своими игрушками, не опасаясь, что их отберут хулиганы. Почему они могут не опасаться — читайте под катом.


Читать: https://habr.com/ru/post/673864/
Что я узнал на конференции DataOps Unleashed 2022

DataOps Unleashed — конференция, на которой обсуждают DataOps, CloudOps и AIOps, лекторы рассказывают об актуальных тенденциях и передовых методах запуска, управления и мониторинга пайплайнов данных и аналитических рабочих нагрузках.

Команда VK Cloud Solutions перевела конспект выступлений, которые показались полезны автору статьи. DataOps-специалисты ведущих ИТ-компаний объясняли, как они устанавливают предсказуемость данных, повышают достоверность и снижают расходы на работу с пайплайнами.


Читать: https://habr.com/ru/post/673320/
Как собрать отчет в Yandex DataLens быстро и почти просто

Google Data Studio это, конечно, хорошо, но у нас есть свой чудесный аналог - похожий инструмент от одной из передовых ИТ-компаний РФ Yandex Datalens. Сегодня в паре абзацев попробуем быстро собрать отчет, аналогичный материалу про Data Studio. Спойлер: это не так просто, как кажется на первый взгляд. Но давайте разбираться.


Читать: https://habr.com/ru/post/674038/
«Скоро приедем?»: как оценить время в пути

В этом году мы много работали над качеством предсказания времени в пути (ETA) в навигаторе 2ГИС и на 30% увеличили количество маршрутов, у которых прогнозное время совпадает с реальным с точностью до минуты. Меня зовут Кирилл Кальмуцкий, я Data Scientist в 2ГИС, и я расскажу, как максимально точно рассчитывать время прибытия из точки А в точку Б в условиях постоянного изменения дорожной ситуации.

Поговорим про то, как мы постепенно меняли подходы к оценке времени в пути: от простой аддитивной модели до использования ML-моделей прогноза пробок и корректировки ETA. Ввели Traversal Time на смену GPS-скоростей, а ещё проводили эксперименты и оценивали качество изменений алгоритма, чистили мусор из данных и закатывали модели в продакшн. Обо всём по порядку.


Читать: https://habr.com/ru/post/674230/
Как нейронка обогнала бустинг, а команда Сбера заняла 1 место в конкурсе Data Fusion Contest 2022

Привет, Хабр! Буквально недавно стали известны итоги открытого соревнования по машинному обучению Data Fusion Contest 2022. Это уже второе соревнование, причём более масштабное, чем первое. В конкурсе с общим призовым фондом 2 млн рублей приняли участие более тысячи человек. Участники соревновались не один и не два дня, битва умов продолжалась целых 3,5 месяца. За это время организаторы получили 6,5 тыс. решений.

Что нужно было делать участникам? Если кратко, то главная задача была такой: при помощи машинного обучения решить проблему сопоставления из двух совершенно разных массивов данных. Требовалось сопоставить данные клиентов из датасета с транзакциями клиентов ВТБ по банковским картам и данные кликстрима (информация о посещении web-страниц) клиентов Ростелекома. Нужно было установить соответствие между клиентами двух организаций. Оно устанавливалось, если два клиента из датасетов – один и тот же человек. Конечно же, данные были деперсонализированы, сохранялась лишь весьма ограниченная информация о самом поведении пользователей. Сопоставлять всё это обучали искусственный интеллект. Подробности – под катом. А ещё там будет ссылка на исходники крутой библиотеки для ИИ, которую использовали победители конкурса. Поехали!


Читать: https://habr.com/ru/post/674272/
2
Tableau vs FineBI. Часть II: разработка

В прошлом посте мы сравнили основные параметры FineBI и Tableau, а сейчас сконцентрируемся непосредственно на разработке. Подчеркнем: мы не претендуем на очень глубокий анализ функционала – речь, скорее, про обзор возможностей. Ведь все мы знаем, что все фломастеры на вкус разные: у каждого, кто работает в BI-системе, свои пристрастия и потребности. Но есть определенный набор основных задач, которые должна решать платформа – иначе грош ей цена. Итак, поехали!

Создание визуализаций (Tableau vs FineBI: 5/4)
В этом отношении особых различий нет: обе системы справляются с адаптивной разработкой. Однако признаем: в Tableau больше инструментов работы с визуализациями, их кастомизации.
Tableau:
- Доступно 24 вида графика.
- Богатые возможности кастомизации.
- Базируется на концепции drag-and-drop.


Читать: https://habr.com/ru/post/674326/
[recovery mode] Как системы мониторинга и прогноза встраиваются в бизнес-процессы ТОиР: сценарии на примере F5 PMM и F5 EAM

Привет, Хабр! Мы – Factory5, российский разработчик ПО для промышленных предприятий. Создаём решения для управления производственными активами и интеллектуального анализа больших данных на базе технологий машинного обучения. Сегодня расскажем о том, как наши системы встраиваются в бизнес-процессы и помогают оптимизировать ресурсы.

Техническое обслуживание и ремонт могут занимать до 50% операционных затрат предприятия. Сегодня существует много умных решений для автоматизации, улучшения качества и снижения стоимости ТОиР. Одно из таких  — системы мониторинга и прогноза, которые собирают данные об оборудовании, анализируют их и прогнозируют время до возможного отказа.


Читать: https://habr.com/ru/post/674410/