Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.82K subscribers
570 photos
3 videos
2 files
2.93K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Tableau vs FineBI. Часть II: разработка

В прошлом посте мы сравнили основные параметры FineBI и Tableau, а сейчас сконцентрируемся непосредственно на разработке. Подчеркнем: мы не претендуем на очень глубокий анализ функционала – речь, скорее, про обзор возможностей. Ведь все мы знаем, что все фломастеры на вкус разные: у каждого, кто работает в BI-системе, свои пристрастия и потребности. Но есть определенный набор основных задач, которые должна решать платформа – иначе грош ей цена. Итак, поехали!

Создание визуализаций (Tableau vs FineBI: 5/4)
В этом отношении особых различий нет: обе системы справляются с адаптивной разработкой. Однако признаем: в Tableau больше инструментов работы с визуализациями, их кастомизации.
Tableau:
- Доступно 24 вида графика.
- Богатые возможности кастомизации.
- Базируется на концепции drag-and-drop.


Читать: https://habr.com/ru/post/674326/
[recovery mode] Как системы мониторинга и прогноза встраиваются в бизнес-процессы ТОиР: сценарии на примере F5 PMM и F5 EAM

Привет, Хабр! Мы – Factory5, российский разработчик ПО для промышленных предприятий. Создаём решения для управления производственными активами и интеллектуального анализа больших данных на базе технологий машинного обучения. Сегодня расскажем о том, как наши системы встраиваются в бизнес-процессы и помогают оптимизировать ресурсы.

Техническое обслуживание и ремонт могут занимать до 50% операционных затрат предприятия. Сегодня существует много умных решений для автоматизации, улучшения качества и снижения стоимости ТОиР. Одно из таких  — системы мониторинга и прогноза, которые собирают данные об оборудовании, анализируют их и прогнозируют время до возможного отказа.


Читать: https://habr.com/ru/post/674410/
Sink Amazon Kinesis Data Analytics Apache Flink output to Amazon Keyspaces using Apache Cassandra Connector

Read: https://aws.amazon.com/blogs/big-data/sink-amazon-kinesis-data-analytics-apache-flink-output-to-amazon-keyspaces-using-apache-cassandra-connector/
Oracle Analytics Best Practices: Finding the Oracle SQL_ID

If you're tuning queries, you'll need the ID for your SQL statement. This post shows you how to find the SQL_ID in Oracle Analytics usage tracking tables and Oracle database system tables.

Read: https://blogs.oracle.com/analytics/post/oracle-analytics-best-practices-finding-the-oracle-sqlid
Monitor your Amazon QuickSight deployments using the new Amazon CloudWatch integration

Read: https://aws.amazon.com/blogs/big-data/monitor-your-amazon-quicksight-deployments-using-the-new-amazon-cloudwatch-integration/
Учимся анализировать — полный цикл

Полноценный анализ дата сета с использованием Python. Почистим данные, подготовим данные, выдвинем гипотезы и проверим их.

Статья рекомендована начинающим аналитикам для понимания процесса.
Перейдем к анализу дата сета

Читать: https://habr.com/ru/post/674720/
👍3
Взаимосвязь температуры и населения

Погодные условия на планете и в конкретном регионе в частности влиют на всю социальную жизнь общества: так колебание температуры поверхностного слоя воды в экваториальной части Тихого океана не только оказывают заметное влияние на климат, но и вызывает эпидемии, может быть связан с цикличностью войн и возникновением гражданских конфликтов в Индии и африканских странах. И это неудивительно: погода влияет на урожай, а голод и резкое повышенние затрат вынуждают людей искать радикальные выходы (как, например, отобрать плодородную землю). Так, например, риск возникновения гражданской войны в жаркие годы в два раза выше. В результате засухи 2007 года, которая вызвала скачок в ценах на продовольственные товары, начались общественные беспорядки в Египте, Камеруне и Гаити.


Читать: https://habr.com/ru/post/674794/
Создаём свою БД на PostgreSQL из CSV

Давайте вместе попробуем создать основы большой базы данных, с помощью готового dataset. Для поиска нужного нам материала воспользуемся помощью прекрасного ресурса KAGGLE.


Читать: https://habr.com/ru/post/674802/
👍1
Как быстро разрабатывать сервисы обработки данных в реальном времени с помощью PySpark Structured Streaming и Kafka

Данная статья обобщает базовые шаги по установке и началу работы с PySpark Structured Streaming при участии брокера сообщений Kafka. Предполагается, что читатель уже знаком с языком программирования Python и сервисом Kafka.


Читать: https://habr.com/ru/post/674944/
Введение в языковые модели

N-граммы

N-граммы – это статистические модели, которые предсказывают следующее слово после N-1 слов на основе вероятности их сочетания. Например, сочетание I want to в английском языке имеет высокую вероятностью, а want I to – низкую. Говоря простым языком, N-грамма – это последовательность n слов. Например, биграммы – это последовательности из двух слов (I want, want to, to, go, go to, to the…), триграммы – последовательности из трех слов (I want to, want to go, to go to…) и так далее.

Такие распределения вероятностей имеют широкое применение в машинном переводе, автоматической проверке орфографии, распознавании речи и умном вводе. Например, при распознавании речи, по сравнению с фразой eyes awe of an, последовательность I saw a van будет иметь большую вероятность. Во всех этих случаях мы подсчитываем вероятность следующего слова или последовательности слов. Такие подсчеты  называются языковыми моделями.

Как же рассчитать P(w)? Например, вероятность предложения P(I, found, two, pounds, in, the, library). Для этого нам понадобится цепное правило, которое определяется так:


Читать: https://habr.com/ru/post/675218/
👍2
Analyze logs with Dynatrace Davis AI Engine using Amazon Kinesis Data Firehose HTTP endpoint delivery

Read: https://aws.amazon.com/blogs/big-data/analyze-logs-with-dynatrace-davis-ai-engine-using-amazon-kinesis-data-firehose-http-endpoint-delivery/
How HR can help achieve sustainability goals

Embracing ESG initiatives (environment, social, governance) can improve your employer brand and keep employees happy.

Read: https://blogs.oracle.com/analytics/post/how-hr-can-help-achieve-sustainability-goals
Опенсорсные массивы данных для Computer Vision

Модели Computer Vision, обучаемые на опенсорсных массивах данных

Computer Vision (CV) — одна из самых увлекательных тем в сфере искусственного интеллекта (Artificial Intelligence, AI) и машинного обучения (Machine Learning, ML). Это важная часть многих современных конвейеров AI/ML, преобразующая практически все отрасли и позволяющая компаниям осуществлять революцию в работе машин и бизнес-систем.

В науке CV многие десятилетия была уважаемой областью computer science, и за многие годы в этой сфере было проведено множество исследований по её совершенствованию. Однако революцию в ней совершило недавно начавшееся применение глубоких нейросетей, ставшее стимулом ускорения её развития.


Читать: https://habr.com/ru/post/669886/
7 июля пройдёт бесплатный онлайн ML-митап

На нём расскажут, как автоматизировать мониторинг качества данных в Feature Store, рассмотрят популярные проблемы ML-систем и способы их предотвращения, а также обсудят, что происходит с RnD в промышленном Data Science.

На митап приглашают дата-саентистов, дата-инженеров и специалистов, интересующихся машинным обучением.

Подробнее: https://tprg.ru/u5Dq

#ивент
👍1
Архитектура реальной системы машинного обучения

Чтобы понимать, как работают системы машинного обучения, нужно знать, из каких компонентов они состоят и как они связаны друг с другом. Команда VK Cloud Solutions перевела статью об архитектуре систем машинного обучения, которые сейчас используют на практике.


Читать: https://habr.com/ru/post/673782/
Tableau vs FineBI. Часть III: администрирование и лицензирование

Сегодня посмотрим на два важных аспекта сравниваемых BI-систем: администрирование и лицензирование. И то, и другое не менее важно, чем собственно функционал и интеграционные возможности решений. Посмотрим, насколько значимы различия и не подведет ли нас китайская платформа.


Читать: https://habr.com/ru/post/675890/
Accelerate machine learning with AWS Data Exchange and Amazon Redshift ML

Read: https://aws.amazon.com/blogs/big-data/accelerate-machine-learning-with-aws-data-exchange-and-amazon-redshift-ml/
👍1