Introducing AWS Glue Auto Scaling: Automatically resize serverless computing resources for lower cost with optimized Apache Spark
Read: https://aws.amazon.com/blogs/big-data/introducing-aws-glue-auto-scaling-automatically-resize-serverless-computing-resources-for-lower-cost-with-optimized-apache-spark/
Read: https://aws.amazon.com/blogs/big-data/introducing-aws-glue-auto-scaling-automatically-resize-serverless-computing-resources-for-lower-cost-with-optimized-apache-spark/
Amazon QuickSight 1-click public embedding available in preview
Read: https://aws.amazon.com/blogs/big-data/amazon-quicksight-1-click-public-embedding-available-in-preview/
Read: https://aws.amazon.com/blogs/big-data/amazon-quicksight-1-click-public-embedding-available-in-preview/
Build your data pipeline in your AWS modern data platform using AWS Lake Formation, AWS Glue, and dbt Core
Read: https://aws.amazon.com/blogs/big-data/build-your-data-pipeline-in-your-aws-modern-data-platform-using-aws-lake-formation-aws-glue-and-dbt-core/
Read: https://aws.amazon.com/blogs/big-data/build-your-data-pipeline-in-your-aws-modern-data-platform-using-aws-lake-formation-aws-glue-and-dbt-core/
Query 10 new data sources with Amazon Athena
Read: https://aws.amazon.com/blogs/big-data/query-10-new-data-sources-with-amazon-athena/
Read: https://aws.amazon.com/blogs/big-data/query-10-new-data-sources-with-amazon-athena/
Author AWS Glue jobs with PyCharm using AWS Glue interactive sessions
Read: https://aws.amazon.com/blogs/big-data/author-aws-glue-jobs-with-pycharm-using-aws-glue-interactive-sessions/
Read: https://aws.amazon.com/blogs/big-data/author-aws-glue-jobs-with-pycharm-using-aws-glue-interactive-sessions/
Почему инструменты MLOps должны быть с открытым исходным кодом?
Перевод статьи подготовлен совместно с Моргуновой Анной, за что ей огромное спасибо 👋 Другие материалы ML REPA и ссылки на видео митапов и конференций можно найти в открытой странице в Notion.
Обзор
💡 Вы узнаете, что такое MLOps, зачем вам нужны MLOps для ваших проектов машинного обучения, почему MLOps должен быть open source и примеры существующих инструментов MLOps.
Автор: Yuqi Li
Оригинал: Why MLOps tools should be Open Source
Читать: https://habr.com/ru/post/662519/
Перевод статьи подготовлен совместно с Моргуновой Анной, за что ей огромное спасибо 👋 Другие материалы ML REPA и ссылки на видео митапов и конференций можно найти в открытой странице в Notion.
Обзор
💡 Вы узнаете, что такое MLOps, зачем вам нужны MLOps для ваших проектов машинного обучения, почему MLOps должен быть open source и примеры существующих инструментов MLOps.
Автор: Yuqi Li
Оригинал: Why MLOps tools should be Open Source
Читать: https://habr.com/ru/post/662519/
Установка, настройка и эксплуатация стэка OpenSearch в классической среде
Передо мной встала задача сбора логов с парка серверов на ОС Windows и ОС Linux. Для того чтобы решить её я воспользовался стэком OpenSearch. Во время настройки OpenSearch мне не хватало в открытых источниках наглядных примеров, а информация на официальных сайтах ElasticSearch и OpenSearch мне показалась обрывочной, слабо привязанной к реальным ситуациям. Поэтому я решил поделиться своим опытом и описать основные моменты установки и некоторые сценарии настройки и применения стэка OpenSearch, которые я применил в своей практике.
Читать: https://habr.com/ru/post/662527/
Передо мной встала задача сбора логов с парка серверов на ОС Windows и ОС Linux. Для того чтобы решить её я воспользовался стэком OpenSearch. Во время настройки OpenSearch мне не хватало в открытых источниках наглядных примеров, а информация на официальных сайтах ElasticSearch и OpenSearch мне показалась обрывочной, слабо привязанной к реальным ситуациям. Поэтому я решил поделиться своим опытом и описать основные моменты установки и некоторые сценарии настройки и применения стэка OpenSearch, которые я применил в своей практике.
Читать: https://habr.com/ru/post/662527/
Успешное изобретение для Умного поиска hh.ru
Мы запатентовали собственную разработку для «Умного поиска» и вошли в число финалистов конкурса Роспатента «Успешный патент» где выявляют самые классные изобретения по итогам 2020-2021 годов. В конкурсе приняли участвовали еще 128 российских правообладателей.
Читать: https://habr.com/ru/post/662920/
Мы запатентовали собственную разработку для «Умного поиска» и вошли в число финалистов конкурса Роспатента «Успешный патент» где выявляют самые классные изобретения по итогам 2020-2021 годов. В конкурсе приняли участвовали еще 128 российских правообладателей.
Читать: https://habr.com/ru/post/662920/
CleverDATA Tag Manager – есть ли жизнь без Google?
Российский рекламно-аналитический рынок меняется с невероятной скоростью, и эти изменения довольно серьезные. На них нужно как-то реагировать и крупным компаниям-производителям товаров и услуг, и рекламным агентствам. Привычные инструменты аналитики перестают быть доступными. Существует ли альтернатива, например, для сбора событий в условиях недоступности сервисов Google? Рассказываем про нашу разработку CleverDATA Tag Manager, которая является частью CDP CleverDATA.
Читать: https://habr.com/ru/post/662720/
Российский рекламно-аналитический рынок меняется с невероятной скоростью, и эти изменения довольно серьезные. На них нужно как-то реагировать и крупным компаниям-производителям товаров и услуг, и рекламным агентствам. Привычные инструменты аналитики перестают быть доступными. Существует ли альтернатива, например, для сбора событий в условиях недоступности сервисов Google? Рассказываем про нашу разработку CleverDATA Tag Manager, которая является частью CDP CleverDATA.
Читать: https://habr.com/ru/post/662720/
Причинно-следственный анализ в машинном обучении
Что появилось первым: курица или яйцо?
Статистики давно уже нашли ответ на этот вопрос.
Причем несколько раз.
И каждый раз ответ был разным.
А если серьезно, то для машинного обучения становятся все более актуальными вопросы причинно-следственного анализа (causal inference) - когда главной целью моделирования является не прогноз и его качество, а то, как мы можем принимать решения на основе нашего алгоритма. И как это повлияет на мир, в котором эта модель будет действовать. Сделает ли модель его лучше, чем он был? Или наоборот.
Под катом я расскажу о причинно-следственном анализе, его ключевых методах и применении в машинном обучении. В следующей статье побеседуем о ключевых трендах в развитии методов причинно-следственного анализа в машинном обучении в 2020-2021 гг.
Читать: https://habr.com/ru/post/544208/
Что появилось первым: курица или яйцо?
Статистики давно уже нашли ответ на этот вопрос.
Причем несколько раз.
И каждый раз ответ был разным.
А если серьезно, то для машинного обучения становятся все более актуальными вопросы причинно-следственного анализа (causal inference) - когда главной целью моделирования является не прогноз и его качество, а то, как мы можем принимать решения на основе нашего алгоритма. И как это повлияет на мир, в котором эта модель будет действовать. Сделает ли модель его лучше, чем он был? Или наоборот.
Под катом я расскажу о причинно-следственном анализе, его ключевых методах и применении в машинном обучении. В следующей статье побеседуем о ключевых трендах в развитии методов причинно-следственного анализа в машинном обучении в 2020-2021 гг.
Читать: https://habr.com/ru/post/544208/
How SailPoint solved scaling issues by migrating legacy big data applications to Amazon EMR on Amazon EKS
Read: https://aws.amazon.com/blogs/big-data/how-sailpoint-solved-scaling-issues-by-migrating-legacy-big-data-applications-to-amazon-emr-on-amazon-eks/
Read: https://aws.amazon.com/blogs/big-data/how-sailpoint-solved-scaling-issues-by-migrating-legacy-big-data-applications-to-amazon-emr-on-amazon-eks/
Modernize your healthcare clinical quality data repositories with Amazon Redshift Data Vault
Read: https://aws.amazon.com/blogs/big-data/modernize-your-healthcare-clinical-quality-data-repositories-with-amazon-redshift-data-vault/
Read: https://aws.amazon.com/blogs/big-data/modernize-your-healthcare-clinical-quality-data-repositories-with-amazon-redshift-data-vault/
Build a modern data architecture and data mesh pattern at scale using AWS Lake Formation tag-based access control
Read: https://aws.amazon.com/blogs/big-data/build-a-modern-data-architecture-and-data-mesh-pattern-at-scale-using-aws-lake-formation-tag-based-access-control/
Read: https://aws.amazon.com/blogs/big-data/build-a-modern-data-architecture-and-data-mesh-pattern-at-scale-using-aws-lake-formation-tag-based-access-control/
Tips to Convert Text Columns to Dates in Oracle Analytics Dataset Editor – Part One
Oracle Analytics provides powerful self-service visual data editing capabilities to let users quickly and easily clean, normalize, and enrich data for analysis. This article includes helpful tricks in the dataset editor for working with dates in datasets.
Read: https://blogs.oracle.com/analytics/post/tips-to-converting-text-columns-to-dates-in-oracle-analytics-dataset-editor-part-one
Oracle Analytics provides powerful self-service visual data editing capabilities to let users quickly and easily clean, normalize, and enrich data for analysis. This article includes helpful tricks in the dataset editor for working with dates in datasets.
Read: https://blogs.oracle.com/analytics/post/tips-to-converting-text-columns-to-dates-in-oracle-analytics-dataset-editor-part-one
Oracle
Tips to Convert Text Columns to Dates in Oracle Analytics Dataset Editor – Part One
Oracle Analytics provides powerful self-service visual data editing capabilities to let users quickly and easily clean, normalize, and enrich data for analysis. This article includes helpful tricks in the dataset editor for working with dates in datasets.
Если вы устраняете систематическую ошибку модели, то уже слишком поздно
Введение
Машинное обучение — это технологический прорыв, случающийся раз в поколение. Однако с ростом его популярности основной проблемой становятся систематические ошибки алгоритма. Если модели ML не обучаются на репрезентативных данных, у них могут развиться серьёзные систематические ошибки, оказывающие существенный вред недостаточно представленным группам и приводящие к созданию неэффективных продуктов. Мы изучили массив данных CoNLL-2003, являющийся стандартом для создания алгоритмов распознавания именованных сущностей в тексте, и выяснили, что в данных присутствует серьёзный перекос в сторону мужских имён. При помощи наших технологии мы смогли компенсировать эту систематическую ошибку:
1. Мы обогатили данные, чтобы выявить сокрытые систематические ошибки
2. Дополнили массив данных недостаточно представленными примерами, чтобы компенсировать гендерный перекос
Модель, обученная на нашем расширенном массиве данных CoNLL-2003, характеризуется снижением систематической ошибки и повышенной точностью, и это показывает, что систематическую ошибку можно устранить без каких-либо изменений в модели. Мы выложили в open source наши аннотации Named Entity Recognition для исходного массива данных CoNLL-2003, а также его улучшенную версию, скачать их можно здесь.
Читать: https://habr.com/ru/post/657123/
Введение
Машинное обучение — это технологический прорыв, случающийся раз в поколение. Однако с ростом его популярности основной проблемой становятся систематические ошибки алгоритма. Если модели ML не обучаются на репрезентативных данных, у них могут развиться серьёзные систематические ошибки, оказывающие существенный вред недостаточно представленным группам и приводящие к созданию неэффективных продуктов. Мы изучили массив данных CoNLL-2003, являющийся стандартом для создания алгоритмов распознавания именованных сущностей в тексте, и выяснили, что в данных присутствует серьёзный перекос в сторону мужских имён. При помощи наших технологии мы смогли компенсировать эту систематическую ошибку:
1. Мы обогатили данные, чтобы выявить сокрытые систематические ошибки
2. Дополнили массив данных недостаточно представленными примерами, чтобы компенсировать гендерный перекос
Модель, обученная на нашем расширенном массиве данных CoNLL-2003, характеризуется снижением систематической ошибки и повышенной точностью, и это показывает, что систематическую ошибку можно устранить без каких-либо изменений в модели. Мы выложили в open source наши аннотации Named Entity Recognition для исходного массива данных CoNLL-2003, а также его улучшенную версию, скачать их можно здесь.
Читать: https://habr.com/ru/post/657123/
Оперативная аналитика данных. Knime & MongoDB
В предыдущей статье я вкратце упомянул, что Knime умеет работать с базами данных, в том числе с NoSQL базой MongoDB. На мой взгляд, MongoDB является довольно простым и эффективным решением для хранения информации, представленной в виде коллекций документов, состоящих из различных наборов полей и, по сути, являющихся обычными JSON файлами. Мне показалась интересным попробовать связку Knime - MongoDB в действии. Именно этой связке и посвящена данная статья.
Читать: https://habr.com/ru/post/663146/
В предыдущей статье я вкратце упомянул, что Knime умеет работать с базами данных, в том числе с NoSQL базой MongoDB. На мой взгляд, MongoDB является довольно простым и эффективным решением для хранения информации, представленной в виде коллекций документов, состоящих из различных наборов полей и, по сути, являющихся обычными JSON файлами. Мне показалась интересным попробовать связку Knime - MongoDB в действии. Именно этой связке и посвящена данная статья.
Читать: https://habr.com/ru/post/663146/
Amazon EMR on Amazon EKS provides up to 61% lower costs and up to 68% performance improvement for Spark workloads
Read: https://aws.amazon.com/blogs/big-data/amazon-emr-on-amazon-eks-provides-up-to-61-lower-costs-and-up-to-68-performance-improvement-for-spark-workloads/
Read: https://aws.amazon.com/blogs/big-data/amazon-emr-on-amazon-eks-provides-up-to-61-lower-costs-and-up-to-68-performance-improvement-for-spark-workloads/
Real-time analytics with Amazon Redshift streaming ingestion
Read: https://aws.amazon.com/blogs/big-data/real-time-analytics-with-amazon-redshift-streaming-ingestion/
Read: https://aws.amazon.com/blogs/big-data/real-time-analytics-with-amazon-redshift-streaming-ingestion/
Make your data shine: learn to build custom data visualizations in your own applications using Oracle Analytics Cloud and the new JSON-based semantic model markup language
Make your data shine: learn to build custom data visualizations in your own applications using Oracle Analytics Cloud and the new JSON-based semantic model markup language.
Read: https://blogs.oracle.com/analytics/post/make-your-data-shine-learn-to-build-custom-data-visualizations-in-your-own-applications-using-oracle-analytics-cloud-and-the-new-json-based-semantic-model-markup-language
Make your data shine: learn to build custom data visualizations in your own applications using Oracle Analytics Cloud and the new JSON-based semantic model markup language.
Read: https://blogs.oracle.com/analytics/post/make-your-data-shine-learn-to-build-custom-data-visualizations-in-your-own-applications-using-oracle-analytics-cloud-and-the-new-json-based-semantic-model-markup-language
Oracle
Make your data shine: learn to build custom data visualizations in your own applications using Oracle Analytics Cloud and the new…
Make your data shine: learn to build custom data visualizations in your own applications using Oracle Analytics Cloud and the new JSON-based semantic model markup language.
👍1
The Data Founder Story: Shipyard
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-shipyard
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-shipyard