NEW BOT Телеграм, страница

Data Analysis / Big Data

Игры для самых больших: песочница данных и её безопасность

Говорят, что большие данные — новая нефть. В этом есть глубокая аналогия: каждый день большим данным находят всё новые и новые применения. Но есть и отличие: из двух бочек нефти можно сделать то же, что и из одной, только в два раза больше. А вот объединив два датасета, порой можно обнаружить удивительные вещи, не содержавшиеся ни в одном из них отдельно.

Однако нельзя просто так взять и отдать свои данные кому попало. То, что может принести пользу, могут использовать и во вред. Данные, которые компании генерируют в процессе своей работы, часто (или вообще всегда) содержат чувствительную информацию о клиентах, финансах и тому подобном. Синергия данных сулит большую выгоду, но как извлечь её без риска?

Именно эту проблему решает песочница данных, созданная Ассоциацией больших данных. В ней большие игроки могут обмениваться своими игрушками, не опасаясь, что их отберут хулиганы. Почему они могут не опасаться — читайте под катом.

Читать: https://habr.com/ru/post/673864/

616 views12:29

Data Analysis / Big Data

Disaster recovery considerations with Amazon EMR on Amazon EC2 for Spark workloads

Read: https://aws.amazon.com/blogs/big-data/disaster-recovery-considerations-with-amazon-emr-on-amazon-ec2-for-spark-workloads/

579 views16:07

Data Analysis / Big Data

Migrate from Snowflake to Amazon Redshift using AWS Glue Python shell

Read: https://aws.amazon.com/blogs/big-data/migrate-from-snowflake-to-amazon-redshift-using-aws-glue-python-shell/

609 views16:07

Data Analysis / Big Data

Что я узнал на конференции DataOps Unleashed 2022

DataOps Unleashed — конференция, на которой обсуждают DataOps, CloudOps и AIOps, лекторы рассказывают об актуальных тенденциях и передовых методах запуска, управления и мониторинга пайплайнов данных и аналитических рабочих нагрузках.

Команда VK Cloud Solutions перевела конспект выступлений, которые показались полезны автору статьи. DataOps-специалисты ведущих ИТ-компаний объясняли, как они устанавливают предсказуемость данных, повышают достоверность и снижают расходы на работу с пайплайнами.

Читать: https://habr.com/ru/post/673320/

591 views10:02

Data Analysis / Big Data

Как собрать отчет в Yandex DataLens быстро и почти просто

Google Data Studio это, конечно, хорошо, но у нас есть свой чудесный аналог - похожий инструмент от одной из передовых ИТ-компаний РФ Yandex Datalens. Сегодня в паре абзацев попробуем быстро собрать отчет, аналогичный материалу про Data Studio. Спойлер: это не так просто, как кажется на первый взгляд. Но давайте разбираться.

Читать: https://habr.com/ru/post/674038/

591 views10:55

Data Analysis / Big Data

Know your data 34: coming for your most private data

Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/06/know-your-data-34-coming-for-your-most-private-data.html

531 views22:03

Data Analysis / Big Data

Configuring Customized Security in Oracle Fusion Analytics Warehouse

Security administrators should read this short post and attached guide to understand how to configure custom security in Fusion Analytics.

Read: https://blogs.oracle.com/analytics/post/configuring-customized-security-in-oracle-fusion-analytics-warehouse

Oracle

Configuring Customized Security in Oracle Fusion Analytics Warehouse

Security administrators should read this short post and attached guide to understand how to configure custom security in Fusion Analytics.

569 views00:34

Data Analysis / Big Data

«Скоро приедем?»: как оценить время в пути

В этом году мы много работали над качеством предсказания времени в пути (ETA) в навигаторе 2ГИС и на 30% увеличили количество маршрутов, у которых прогнозное время совпадает с реальным с точностью до минуты. Меня зовут Кирилл Кальмуцкий, я Data Scientist в 2ГИС, и я расскажу, как максимально точно рассчитывать время прибытия из точки А в точку Б в условиях постоянного изменения дорожной ситуации.

Поговорим про то, как мы постепенно меняли подходы к оценке времени в пути: от простой аддитивной модели до использования ML-моделей прогноза пробок и корректировки ETA. Ввели Traversal Time на смену GPS-скоростей, а ещё проводили эксперименты и оценивали качество изменений алгоритма, чистили мусор из данных и закатывали модели в продакшн. Обо всём по порядку.

Читать: https://habr.com/ru/post/674230/

550 views06:05

Data Analysis / Big Data

Как нейронка обогнала бустинг, а команда Сбера заняла 1 место в конкурсе Data Fusion Contest 2022

Привет, Хабр! Буквально недавно стали известны итоги открытого соревнования по машинному обучению Data Fusion Contest 2022. Это уже второе соревнование, причём более масштабное, чем первое. В конкурсе с общим призовым фондом 2 млн рублей приняли участие более тысячи человек. Участники соревновались не один и не два дня, битва умов продолжалась целых 3,5 месяца. За это время организаторы получили 6,5 тыс. решений.

Что нужно было делать участникам? Если кратко, то главная задача была такой: при помощи машинного обучения решить проблему сопоставления из двух совершенно разных массивов данных. Требовалось сопоставить данные клиентов из датасета с транзакциями клиентов ВТБ по банковским картам и данные кликстрима (информация о посещении web-страниц) клиентов Ростелекома. Нужно было установить соответствие между клиентами двух организаций. Оно устанавливалось, если два клиента из датасетов – один и тот же человек. Конечно же, данные были деперсонализированы, сохранялась лишь весьма ограниченная информация о самом поведении пользователей. Сопоставлять всё это обучали искусственный интеллект. Подробности – под катом. А ещё там будет ссылка на исходники крутой библиотеки для ИИ, которую использовали победители конкурса. Поехали!

Читать: https://habr.com/ru/post/674272/

❤2

564 views09:04

Data Analysis / Big Data

Tableau vs FineBI. Часть II: разработка

В прошлом посте мы сравнили основные параметры FineBI и Tableau, а сейчас сконцентрируемся непосредственно на разработке. Подчеркнем: мы не претендуем на очень глубокий анализ функционала – речь, скорее, про обзор возможностей. Ведь все мы знаем, что все фломастеры на вкус разные: у каждого, кто работает в BI-системе, свои пристрастия и потребности. Но есть определенный набор основных задач, которые должна решать платформа – иначе грош ей цена. Итак, поехали!

Создание визуализаций (Tableau vs FineBI: 5/4)
В этом отношении особых различий нет: обе системы справляются с адаптивной разработкой. Однако признаем: в Tableau больше инструментов работы с визуализациями, их кастомизации.
Tableau:
- Доступно 24 вида графика.
- Богатые возможности кастомизации.
- Базируется на концепции drag-and-drop.

Читать: https://habr.com/ru/post/674326/

560 views11:10

Data Analysis / Big Data

[recovery mode] Как системы мониторинга и прогноза встраиваются в бизнес-процессы ТОиР: сценарии на примере F5 PMM и F5 EAM

Привет, Хабр! Мы – Factory5, российский разработчик ПО для промышленных предприятий. Создаём решения для управления производственными активами и интеллектуального анализа больших данных на базе технологий машинного обучения. Сегодня расскажем о том, как наши системы встраиваются в бизнес-процессы и помогают оптимизировать ресурсы.

Техническое обслуживание и ремонт могут занимать до 50% операционных затрат предприятия. Сегодня существует много умных решений для автоматизации, улучшения качества и снижения стоимости ТОиР. Одно из таких — системы мониторинга и прогноза, которые собирают данные об оборудовании, анализируют их и прогнозируют время до возможного отказа.

Читать: https://habr.com/ru/post/674410/

571 views15:06

Data Analysis / Big Data

The Data Founder Story: TUKAN

Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-tukan

573 views16:04

Data Analysis / Big Data

Sink Amazon Kinesis Data Analytics Apache Flink output to Amazon Keyspaces using Apache Cassandra Connector

Read: https://aws.amazon.com/blogs/big-data/sink-amazon-kinesis-data-analytics-apache-flink-output-to-amazon-keyspaces-using-apache-cassandra-connector/

618 views19:15

Data Analysis / Big Data

Oracle Analytics Best Practices: Finding the Oracle SQL_ID

If you're tuning queries, you'll need the ID for your SQL statement. This post shows you how to find the SQL_ID in Oracle Analytics usage tracking tables and Oracle database system tables.

Read: https://blogs.oracle.com/analytics/post/oracle-analytics-best-practices-finding-the-oracle-sqlid

Oracle

Oracle Analytics Best Practices: Finding the Oracle SQL_ID

If you're tuning queries, you'll need the ID for your SQL statement. This post shows you how to find the SQL_ID in Oracle Analytics usage tracking tables and Oracle database system tables.

683 views00:24

Data Analysis / Big Data

Monitor your Amazon QuickSight deployments using the new Amazon CloudWatch integration

Read: https://aws.amazon.com/blogs/big-data/monitor-your-amazon-quicksight-deployments-using-the-new-amazon-cloudwatch-integration/

626 views17:20

Data Analysis / Big Data

Using AWS CloudWatch as destination for Amazon Redshift Audit Logs

Read: https://aws.amazon.com/blogs/big-data/using-aws-cloudwatch-as-destination-for-amazon-redshift-audit-logs/

661 views18:14

Data Analysis / Big Data

Учимся анализировать — полный цикл

Полноценный анализ дата сета с использованием Python. Почистим данные, подготовим данные, выдвинем гипотезы и проверим их.

Статья рекомендована начинающим аналитикам для понимания процесса.
Перейдем к анализу дата сета

Читать: https://habr.com/ru/post/674720/

👍3

807 views16:00

Data Analysis / Big Data

Взаимосвязь температуры и населения

Погодные условия на планете и в конкретном регионе в частности влиют на всю социальную жизнь общества: так колебание температуры поверхностного слоя воды в экваториальной части Тихого океана не только оказывают заметное влияние на климат, но и вызывает эпидемии, может быть связан с цикличностью войн и возникновением гражданских конфликтов в Индии и африканских странах. И это неудивительно: погода влияет на урожай, а голод и резкое повышенние затрат вынуждают людей искать радикальные выходы (как, например, отобрать плодородную землю). Так, например, риск возникновения гражданской войны в жаркие годы в два раза выше. В результате засухи 2007 года, которая вызвала скачок в ценах на продовольственные товары, начались общественные беспорядки в Египте, Камеруне и Гаити.

Читать: https://habr.com/ru/post/674794/

856 views17:53

Data Analysis / Big Data

Создаём свою БД на PostgreSQL из CSV

Давайте вместе попробуем создать основы большой базы данных, с помощью готового dataset. Для поиска нужного нам материала воспользуемся помощью прекрасного ресурса KAGGLE.

Читать: https://habr.com/ru/post/674802/

👍1

771 views18:17

Data Analysis / Big Data

Как быстро разрабатывать сервисы обработки данных в реальном времени с помощью PySpark Structured Streaming и Kafka

Данная статья обобщает базовые шаги по установке и началу работы с PySpark Structured Streaming при участии брокера сообщений Kafka. Предполагается, что читатель уже знаком с языком программирования Python и сервисом Kafka.

Читать: https://habr.com/ru/post/674944/

692 views13:06

Data Analysis / Big Data

Data Engineering Weekly #91

Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-91

636 views15:16

About

Blog

Apps

Platform