Know your data 34: coming for your most private data
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/06/know-your-data-34-coming-for-your-most-private-data.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/06/know-your-data-34-coming-for-your-most-private-data.html
Configuring Customized Security in Oracle Fusion Analytics Warehouse
Security administrators should read this short post and attached guide to understand how to configure custom security in Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/configuring-customized-security-in-oracle-fusion-analytics-warehouse
Security administrators should read this short post and attached guide to understand how to configure custom security in Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/configuring-customized-security-in-oracle-fusion-analytics-warehouse
Oracle
Configuring Customized Security in Oracle Fusion Analytics Warehouse
Security administrators should read this short post and attached guide to understand how to configure custom security in Fusion Analytics.
«Скоро приедем?»: как оценить время в пути
В этом году мы много работали над качеством предсказания времени в пути (ETA) в навигаторе 2ГИС и на 30% увеличили количество маршрутов, у которых прогнозное время совпадает с реальным с точностью до минуты. Меня зовут Кирилл Кальмуцкий, я Data Scientist в 2ГИС, и я расскажу, как максимально точно рассчитывать время прибытия из точки А в точку Б в условиях постоянного изменения дорожной ситуации.
Поговорим про то, как мы постепенно меняли подходы к оценке времени в пути: от простой аддитивной модели до использования ML-моделей прогноза пробок и корректировки ETA. Ввели Traversal Time на смену GPS-скоростей, а ещё проводили эксперименты и оценивали качество изменений алгоритма, чистили мусор из данных и закатывали модели в продакшн. Обо всём по порядку.
Читать: https://habr.com/ru/post/674230/
В этом году мы много работали над качеством предсказания времени в пути (ETA) в навигаторе 2ГИС и на 30% увеличили количество маршрутов, у которых прогнозное время совпадает с реальным с точностью до минуты. Меня зовут Кирилл Кальмуцкий, я Data Scientist в 2ГИС, и я расскажу, как максимально точно рассчитывать время прибытия из точки А в точку Б в условиях постоянного изменения дорожной ситуации.
Поговорим про то, как мы постепенно меняли подходы к оценке времени в пути: от простой аддитивной модели до использования ML-моделей прогноза пробок и корректировки ETA. Ввели Traversal Time на смену GPS-скоростей, а ещё проводили эксперименты и оценивали качество изменений алгоритма, чистили мусор из данных и закатывали модели в продакшн. Обо всём по порядку.
Читать: https://habr.com/ru/post/674230/
Как нейронка обогнала бустинг, а команда Сбера заняла 1 место в конкурсе Data Fusion Contest 2022
Привет, Хабр! Буквально недавно стали известны итоги открытого соревнования по машинному обучению Data Fusion Contest 2022. Это уже второе соревнование, причём более масштабное, чем первое. В конкурсе с общим призовым фондом 2 млн рублей приняли участие более тысячи человек. Участники соревновались не один и не два дня, битва умов продолжалась целых 3,5 месяца. За это время организаторы получили 6,5 тыс. решений.
Что нужно было делать участникам? Если кратко, то главная задача была такой: при помощи машинного обучения решить проблему сопоставления из двух совершенно разных массивов данных. Требовалось сопоставить данные клиентов из датасета с транзакциями клиентов ВТБ по банковским картам и данные кликстрима (информация о посещении web-страниц) клиентов Ростелекома. Нужно было установить соответствие между клиентами двух организаций. Оно устанавливалось, если два клиента из датасетов – один и тот же человек. Конечно же, данные были деперсонализированы, сохранялась лишь весьма ограниченная информация о самом поведении пользователей. Сопоставлять всё это обучали искусственный интеллект. Подробности – под катом. А ещё там будет ссылка на исходники крутой библиотеки для ИИ, которую использовали победители конкурса. Поехали!
Читать: https://habr.com/ru/post/674272/
Привет, Хабр! Буквально недавно стали известны итоги открытого соревнования по машинному обучению Data Fusion Contest 2022. Это уже второе соревнование, причём более масштабное, чем первое. В конкурсе с общим призовым фондом 2 млн рублей приняли участие более тысячи человек. Участники соревновались не один и не два дня, битва умов продолжалась целых 3,5 месяца. За это время организаторы получили 6,5 тыс. решений.
Что нужно было делать участникам? Если кратко, то главная задача была такой: при помощи машинного обучения решить проблему сопоставления из двух совершенно разных массивов данных. Требовалось сопоставить данные клиентов из датасета с транзакциями клиентов ВТБ по банковским картам и данные кликстрима (информация о посещении web-страниц) клиентов Ростелекома. Нужно было установить соответствие между клиентами двух организаций. Оно устанавливалось, если два клиента из датасетов – один и тот же человек. Конечно же, данные были деперсонализированы, сохранялась лишь весьма ограниченная информация о самом поведении пользователей. Сопоставлять всё это обучали искусственный интеллект. Подробности – под катом. А ещё там будет ссылка на исходники крутой библиотеки для ИИ, которую использовали победители конкурса. Поехали!
Читать: https://habr.com/ru/post/674272/
❤2
Tableau vs FineBI. Часть II: разработка
В прошлом посте мы сравнили основные параметры FineBI и Tableau, а сейчас сконцентрируемся непосредственно на разработке. Подчеркнем: мы не претендуем на очень глубокий анализ функционала – речь, скорее, про обзор возможностей. Ведь все мы знаем, что все фломастеры на вкус разные: у каждого, кто работает в BI-системе, свои пристрастия и потребности. Но есть определенный набор основных задач, которые должна решать платформа – иначе грош ей цена. Итак, поехали!
Создание визуализаций (Tableau vs FineBI: 5/4)
В этом отношении особых различий нет: обе системы справляются с адаптивной разработкой. Однако признаем: в Tableau больше инструментов работы с визуализациями, их кастомизации.
Tableau:
- Доступно 24 вида графика.
- Богатые возможности кастомизации.
- Базируется на концепции drag-and-drop.
Читать: https://habr.com/ru/post/674326/
В прошлом посте мы сравнили основные параметры FineBI и Tableau, а сейчас сконцентрируемся непосредственно на разработке. Подчеркнем: мы не претендуем на очень глубокий анализ функционала – речь, скорее, про обзор возможностей. Ведь все мы знаем, что все фломастеры на вкус разные: у каждого, кто работает в BI-системе, свои пристрастия и потребности. Но есть определенный набор основных задач, которые должна решать платформа – иначе грош ей цена. Итак, поехали!
Создание визуализаций (Tableau vs FineBI: 5/4)
В этом отношении особых различий нет: обе системы справляются с адаптивной разработкой. Однако признаем: в Tableau больше инструментов работы с визуализациями, их кастомизации.
Tableau:
- Доступно 24 вида графика.
- Богатые возможности кастомизации.
- Базируется на концепции drag-and-drop.
Читать: https://habr.com/ru/post/674326/
[recovery mode] Как системы мониторинга и прогноза встраиваются в бизнес-процессы ТОиР: сценарии на примере F5 PMM и F5 EAM
Привет, Хабр! Мы – Factory5, российский разработчик ПО для промышленных предприятий. Создаём решения для управления производственными активами и интеллектуального анализа больших данных на базе технологий машинного обучения. Сегодня расскажем о том, как наши системы встраиваются в бизнес-процессы и помогают оптимизировать ресурсы.
Техническое обслуживание и ремонт могут занимать до 50% операционных затрат предприятия. Сегодня существует много умных решений для автоматизации, улучшения качества и снижения стоимости ТОиР. Одно из таких — системы мониторинга и прогноза, которые собирают данные об оборудовании, анализируют их и прогнозируют время до возможного отказа.
Читать: https://habr.com/ru/post/674410/
Привет, Хабр! Мы – Factory5, российский разработчик ПО для промышленных предприятий. Создаём решения для управления производственными активами и интеллектуального анализа больших данных на базе технологий машинного обучения. Сегодня расскажем о том, как наши системы встраиваются в бизнес-процессы и помогают оптимизировать ресурсы.
Техническое обслуживание и ремонт могут занимать до 50% операционных затрат предприятия. Сегодня существует много умных решений для автоматизации, улучшения качества и снижения стоимости ТОиР. Одно из таких — системы мониторинга и прогноза, которые собирают данные об оборудовании, анализируют их и прогнозируют время до возможного отказа.
Читать: https://habr.com/ru/post/674410/
The Data Founder Story: TUKAN
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-tukan
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-tukan
Sink Amazon Kinesis Data Analytics Apache Flink output to Amazon Keyspaces using Apache Cassandra Connector
Read: https://aws.amazon.com/blogs/big-data/sink-amazon-kinesis-data-analytics-apache-flink-output-to-amazon-keyspaces-using-apache-cassandra-connector/
Read: https://aws.amazon.com/blogs/big-data/sink-amazon-kinesis-data-analytics-apache-flink-output-to-amazon-keyspaces-using-apache-cassandra-connector/
Oracle Analytics Best Practices: Finding the Oracle SQL_ID
If you're tuning queries, you'll need the ID for your SQL statement. This post shows you how to find the SQL_ID in Oracle Analytics usage tracking tables and Oracle database system tables.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-best-practices-finding-the-oracle-sqlid
If you're tuning queries, you'll need the ID for your SQL statement. This post shows you how to find the SQL_ID in Oracle Analytics usage tracking tables and Oracle database system tables.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-best-practices-finding-the-oracle-sqlid
Oracle
Oracle Analytics Best Practices: Finding the Oracle SQL_ID
If you're tuning queries, you'll need the ID for your SQL statement. This post shows you how to find the SQL_ID in Oracle Analytics usage tracking tables and Oracle database system tables.
Monitor your Amazon QuickSight deployments using the new Amazon CloudWatch integration
Read: https://aws.amazon.com/blogs/big-data/monitor-your-amazon-quicksight-deployments-using-the-new-amazon-cloudwatch-integration/
Read: https://aws.amazon.com/blogs/big-data/monitor-your-amazon-quicksight-deployments-using-the-new-amazon-cloudwatch-integration/
Using AWS CloudWatch as destination for Amazon Redshift Audit Logs
Read: https://aws.amazon.com/blogs/big-data/using-aws-cloudwatch-as-destination-for-amazon-redshift-audit-logs/
Read: https://aws.amazon.com/blogs/big-data/using-aws-cloudwatch-as-destination-for-amazon-redshift-audit-logs/
Учимся анализировать — полный цикл
Полноценный анализ дата сета с использованием Python. Почистим данные, подготовим данные, выдвинем гипотезы и проверим их.
Статья рекомендована начинающим аналитикам для понимания процесса.
Перейдем к анализу дата сета
Читать: https://habr.com/ru/post/674720/
Полноценный анализ дата сета с использованием Python. Почистим данные, подготовим данные, выдвинем гипотезы и проверим их.
Статья рекомендована начинающим аналитикам для понимания процесса.
Перейдем к анализу дата сета
Читать: https://habr.com/ru/post/674720/
👍3
Взаимосвязь температуры и населения
Погодные условия на планете и в конкретном регионе в частности влиют на всю социальную жизнь общества: так колебание температуры поверхностного слоя воды в экваториальной части Тихого океана не только оказывают заметное влияние на климат, но и вызывает эпидемии, может быть связан с цикличностью войн и возникновением гражданских конфликтов в Индии и африканских странах. И это неудивительно: погода влияет на урожай, а голод и резкое повышенние затрат вынуждают людей искать радикальные выходы (как, например, отобрать плодородную землю). Так, например, риск возникновения гражданской войны в жаркие годы в два раза выше. В результате засухи 2007 года, которая вызвала скачок в ценах на продовольственные товары, начались общественные беспорядки в Египте, Камеруне и Гаити.
Читать: https://habr.com/ru/post/674794/
Погодные условия на планете и в конкретном регионе в частности влиют на всю социальную жизнь общества: так колебание температуры поверхностного слоя воды в экваториальной части Тихого океана не только оказывают заметное влияние на климат, но и вызывает эпидемии, может быть связан с цикличностью войн и возникновением гражданских конфликтов в Индии и африканских странах. И это неудивительно: погода влияет на урожай, а голод и резкое повышенние затрат вынуждают людей искать радикальные выходы (как, например, отобрать плодородную землю). Так, например, риск возникновения гражданской войны в жаркие годы в два раза выше. В результате засухи 2007 года, которая вызвала скачок в ценах на продовольственные товары, начались общественные беспорядки в Египте, Камеруне и Гаити.
Читать: https://habr.com/ru/post/674794/
Создаём свою БД на PostgreSQL из CSV
Давайте вместе попробуем создать основы большой базы данных, с помощью готового dataset. Для поиска нужного нам материала воспользуемся помощью прекрасного ресурса KAGGLE.
Читать: https://habr.com/ru/post/674802/
Давайте вместе попробуем создать основы большой базы данных, с помощью готового dataset. Для поиска нужного нам материала воспользуемся помощью прекрасного ресурса KAGGLE.
Читать: https://habr.com/ru/post/674802/
👍1
Как быстро разрабатывать сервисы обработки данных в реальном времени с помощью PySpark Structured Streaming и Kafka
Данная статья обобщает базовые шаги по установке и началу работы с PySpark Structured Streaming при участии брокера сообщений Kafka. Предполагается, что читатель уже знаком с языком программирования Python и сервисом Kafka.
Читать: https://habr.com/ru/post/674944/
Данная статья обобщает базовые шаги по установке и началу работы с PySpark Structured Streaming при участии брокера сообщений Kafka. Предполагается, что читатель уже знаком с языком программирования Python и сервисом Kafka.
Читать: https://habr.com/ru/post/674944/
Введение в языковые модели
N-граммы
N-граммы – это статистические модели, которые предсказывают следующее слово после N-1 слов на основе вероятности их сочетания. Например, сочетание I want to в английском языке имеет высокую вероятностью, а want I to – низкую. Говоря простым языком, N-грамма – это последовательность n слов. Например, биграммы – это последовательности из двух слов (I want, want to, to, go, go to, to the…), триграммы – последовательности из трех слов (I want to, want to go, to go to…) и так далее.
Такие распределения вероятностей имеют широкое применение в машинном переводе, автоматической проверке орфографии, распознавании речи и умном вводе. Например, при распознавании речи, по сравнению с фразой eyes awe of an, последовательность I saw a van будет иметь большую вероятность. Во всех этих случаях мы подсчитываем вероятность следующего слова или последовательности слов. Такие подсчеты называются языковыми моделями.
Как же рассчитать P(w)? Например, вероятность предложения P(I, found, two, pounds, in, the, library). Для этого нам понадобится цепное правило, которое определяется так:
Читать: https://habr.com/ru/post/675218/
N-граммы
N-граммы – это статистические модели, которые предсказывают следующее слово после N-1 слов на основе вероятности их сочетания. Например, сочетание I want to в английском языке имеет высокую вероятностью, а want I to – низкую. Говоря простым языком, N-грамма – это последовательность n слов. Например, биграммы – это последовательности из двух слов (I want, want to, to, go, go to, to the…), триграммы – последовательности из трех слов (I want to, want to go, to go to…) и так далее.
Такие распределения вероятностей имеют широкое применение в машинном переводе, автоматической проверке орфографии, распознавании речи и умном вводе. Например, при распознавании речи, по сравнению с фразой eyes awe of an, последовательность I saw a van будет иметь большую вероятность. Во всех этих случаях мы подсчитываем вероятность следующего слова или последовательности слов. Такие подсчеты называются языковыми моделями.
Как же рассчитать P(w)? Например, вероятность предложения P(I, found, two, pounds, in, the, library). Для этого нам понадобится цепное правило, которое определяется так:
Читать: https://habr.com/ru/post/675218/
👍2
How William Hill migrated NoSQL workloads at scale to Amazon Keyspaces
Read: https://aws.amazon.com/blogs/big-data/how-william-hill-migrated-nosql-workloads-at-scale-to-amazon-keyspaces/
Read: https://aws.amazon.com/blogs/big-data/how-william-hill-migrated-nosql-workloads-at-scale-to-amazon-keyspaces/
Analyze logs with Dynatrace Davis AI Engine using Amazon Kinesis Data Firehose HTTP endpoint delivery
Read: https://aws.amazon.com/blogs/big-data/analyze-logs-with-dynatrace-davis-ai-engine-using-amazon-kinesis-data-firehose-http-endpoint-delivery/
Read: https://aws.amazon.com/blogs/big-data/analyze-logs-with-dynatrace-davis-ai-engine-using-amazon-kinesis-data-firehose-http-endpoint-delivery/
How HR can help achieve sustainability goals
Embracing ESG initiatives (environment, social, governance) can improve your employer brand and keep employees happy.
Read: https://blogs.oracle.com/analytics/post/how-hr-can-help-achieve-sustainability-goals
Embracing ESG initiatives (environment, social, governance) can improve your employer brand and keep employees happy.
Read: https://blogs.oracle.com/analytics/post/how-hr-can-help-achieve-sustainability-goals
Опенсорсные массивы данных для Computer Vision
Модели Computer Vision, обучаемые на опенсорсных массивах данных
Computer Vision (CV) — одна из самых увлекательных тем в сфере искусственного интеллекта (Artificial Intelligence, AI) и машинного обучения (Machine Learning, ML). Это важная часть многих современных конвейеров AI/ML, преобразующая практически все отрасли и позволяющая компаниям осуществлять революцию в работе машин и бизнес-систем.
В науке CV многие десятилетия была уважаемой областью computer science, и за многие годы в этой сфере было проведено множество исследований по её совершенствованию. Однако революцию в ней совершило недавно начавшееся применение глубоких нейросетей, ставшее стимулом ускорения её развития.
Читать: https://habr.com/ru/post/669886/
Модели Computer Vision, обучаемые на опенсорсных массивах данных
Computer Vision (CV) — одна из самых увлекательных тем в сфере искусственного интеллекта (Artificial Intelligence, AI) и машинного обучения (Machine Learning, ML). Это важная часть многих современных конвейеров AI/ML, преобразующая практически все отрасли и позволяющая компаниям осуществлять революцию в работе машин и бизнес-систем.
В науке CV многие десятилетия была уважаемой областью computer science, и за многие годы в этой сфере было проведено множество исследований по её совершенствованию. Однако революцию в ней совершило недавно начавшееся применение глубоких нейросетей, ставшее стимулом ускорения её развития.
Читать: https://habr.com/ru/post/669886/