Как в PayPal разработали Dione — Open-source-библиотеку индексирования данных для HDFS и Spark
Maksym Kaharlytsky on Unsplash
Команда VK Cloud Solutions перевела историю о том, как инженеры PayPal столкнулись с проблемой обработки данных. Если пользователю требовалось получить определенную строку или выполнить многострочный запрос, данные нужно было дублировать, а для их обработки использовать отдельный стек технологий.
Чтобы этого избежать, в PayPal разработали новую Open-source-библиотеку, которая позволяет быстрее выполнять многострочные и однострочные выборки из больших данных. Во время работы над библиотекой они создали новый формат хранения индексов Avro B-Tree и для пользователей Spark реализовали API на Scala и Python.
Читать: https://habr.com/ru/post/656777/
Maksym Kaharlytsky on Unsplash
Команда VK Cloud Solutions перевела историю о том, как инженеры PayPal столкнулись с проблемой обработки данных. Если пользователю требовалось получить определенную строку или выполнить многострочный запрос, данные нужно было дублировать, а для их обработки использовать отдельный стек технологий.
Чтобы этого избежать, в PayPal разработали новую Open-source-библиотеку, которая позволяет быстрее выполнять многострочные и однострочные выборки из больших данных. Во время работы над библиотекой они создали новый формат хранения индексов Avro B-Tree и для пользователей Spark реализовали API на Scala и Python.
Читать: https://habr.com/ru/post/656777/
👍1
End-to-end data engineering project - batch edition
Read: https://www.startdataengineering.com/post/data-engineering-project-e2e/
Read: https://www.startdataengineering.com/post/data-engineering-project-e2e/
Histogram - Visualize how frequently data in each class occur in the dataset
Introduction
In this article are going to see about what is a histogram graph and different interpretations of the histogram graphs. Histograms group the data in bins and are the fastest way to get an idea about the distribution of each attribute in ...
Read: https://blog.learnml.xyz/histogram-visualize-how-frequently-data-in-each-class-occur-in-the-dataset
Introduction
In this article are going to see about what is a histogram graph and different interpretations of the histogram graphs. Histograms group the data in bins and are the fastest way to get an idea about the distribution of each attribute in ...
Read: https://blog.learnml.xyz/histogram-visualize-how-frequently-data-in-each-class-occur-in-the-dataset
kNN Model Complexity
Introduction
K-Nearest Neighbour is one of the simplest Machine Learning algorithms based on the Supervised Learning technique. It assumes the similarity between the new case/data and available cases and puts the new case into the category that is mo...
Read: https://blog.learnml.xyz/knn-model-complexity
Introduction
K-Nearest Neighbour is one of the simplest Machine Learning algorithms based on the Supervised Learning technique. It assumes the similarity between the new case/data and available cases and puts the new case into the category that is mo...
Read: https://blog.learnml.xyz/knn-model-complexity
Federated access to Amazon Redshift clusters in AWS China Regions with Active Directory Federation Services
Read: https://aws.amazon.com/blogs/big-data/federated-access-to-amazon-redshift-clusters-in-aws-china-regions-with-active-directory-federation-services/
Read: https://aws.amazon.com/blogs/big-data/federated-access-to-amazon-redshift-clusters-in-aws-china-regions-with-active-directory-federation-services/
Day 3/100
Deltalake - [ Intro and Quick Start ]
key features -
ACID transactions
schema enforcement on writes
Unification of batch and streaming - A table in Delta Lake is a batch table as well as a streaming source and sink.
Time travel
Supports merge, upd...
Read: https://rawdatareaders.hashnode.dev/day-3100
Deltalake - [ Intro and Quick Start ]
key features -
ACID transactions
schema enforcement on writes
Unification of batch and streaming - A table in Delta Lake is a batch table as well as a streaming source and sink.
Time travel
Supports merge, upd...
Read: https://rawdatareaders.hashnode.dev/day-3100
Improve reusability and security using Amazon Athena parameterized queries
Read: https://aws.amazon.com/blogs/big-data/improve-reusability-and-security-using-amazon-athena-parameterized-queries/
Read: https://aws.amazon.com/blogs/big-data/improve-reusability-and-security-using-amazon-athena-parameterized-queries/
Oracle named a Visionary in the 2022 Gartner® Magic Quadrant™ for Analytics and Business Intelligence Platforms
Oracle named a visionary in the 2022 Gartner® Magic Quadrant™ for Analytics and Business Intelligence Platforms
Read: https://blogs.oracle.com/analytics/post/oracle-named-a-visionary-in-the-2022-gartner-magic-quadrant-for-analytics-and-business-intelligence-platforms-onwards-upwards
Oracle named a visionary in the 2022 Gartner® Magic Quadrant™ for Analytics and Business Intelligence Platforms
Read: https://blogs.oracle.com/analytics/post/oracle-named-a-visionary-in-the-2022-gartner-magic-quadrant-for-analytics-and-business-intelligence-platforms-onwards-upwards
Oracle
Oracle named a Visionary in the 2022 Gartner® Magic Quadrant™ for Analytics and Business Intelligence Platforms
How new technology helped dunnhumby to deliver better business insights
dunhumby leverages OAC and ADW to deliver better business insights.
Read: https://blogs.oracle.com/analytics/post/how-new-technology-helped-dunnhumby-to-deliver-better-business-insights
dunhumby leverages OAC and ADW to deliver better business insights.
Read: https://blogs.oracle.com/analytics/post/how-new-technology-helped-dunnhumby-to-deliver-better-business-insights
Oracle
How new technology helped dunnhumby to deliver better business insights
dunhumby leverages OAC and ADW to deliver better business insights.
Managing Content in Oracle Analytics
My Oracle Analytics instance has a lot of user-generated content. How do I know what's there? How do I manage content created by users who are no longer around? How can I assign content to a different user?
A feature in the March 2022 update of Oracle Analytics Cloud provides new ways to manage the content in Oracle Analytics.
Read: https://blogs.oracle.com/analytics/post/managing-content-in-oracle-analytics
My Oracle Analytics instance has a lot of user-generated content. How do I know what's there? How do I manage content created by users who are no longer around? How can I assign content to a different user?
A feature in the March 2022 update of Oracle Analytics Cloud provides new ways to manage the content in Oracle Analytics.
Read: https://blogs.oracle.com/analytics/post/managing-content-in-oracle-analytics
What are Model Parameters and Hyperparameters?
Introduction
The two most confusing terms in Machine Learning are model parameters and hyperparameters. In this article, we will try to understand what these terms mean and how they are different from each other.
Model Parameter
A model parameter is...
Read: https://blog.learnml.xyz/what-are-model-parameters-and-hyperparameters
Introduction
The two most confusing terms in Machine Learning are model parameters and hyperparameters. In this article, we will try to understand what these terms mean and how they are different from each other.
Model Parameter
A model parameter is...
Read: https://blog.learnml.xyz/what-are-model-parameters-and-hyperparameters
Warehousing with Google’s Big Query
Data, in the modern world, is decentralized and is being generated and collected at a record pace. To ensure that this data is collected and processed in a manner that enables businesses and organizations to achieve their business goals, specialized ...
Read: https://anujsyal.com/warehousing-with-googles-big-query
Data, in the modern world, is decentralized and is being generated and collected at a record pace. To ensure that this data is collected and processed in a manner that enables businesses and organizations to achieve their business goals, specialized ...
Read: https://anujsyal.com/warehousing-with-googles-big-query
Что лучше: Spark Structured Streaming или полное прекращение работы прода?
Правильное построение ETL-процессов (преобразования данных) — сложная задача, а при большом объёме обрабатываемых данных неизбежно возникают проблемы с ресурсами. Поэтому нам требуется выискивать новые архитектурные решения, способные обеспечить стабильность расчётов и доступность данных, а при необходимости и масштабируемость — с минимальными усилиями.
Когда я пришел в Ozon, мне пришлось столкнуться с огромным количеством ETL-джоб. Прежде чем применить модель машинного обучения, сырые данные проходят множество этапов обработки. А само применение модели (то, ради чего существует команда) занимает всего 5% времени.
Читать: https://habr.com/ru/post/656883/
Правильное построение ETL-процессов (преобразования данных) — сложная задача, а при большом объёме обрабатываемых данных неизбежно возникают проблемы с ресурсами. Поэтому нам требуется выискивать новые архитектурные решения, способные обеспечить стабильность расчётов и доступность данных, а при необходимости и масштабируемость — с минимальными усилиями.
Когда я пришел в Ozon, мне пришлось столкнуться с огромным количеством ETL-джоб. Прежде чем применить модель машинного обучения, сырые данные проходят множество этапов обработки. А само применение модели (то, ради чего существует команда) занимает всего 5% времени.
Читать: https://habr.com/ru/post/656883/
Как мы создавали нашу аудиоаналитику и что она умеет
Речевые технологии шагнули далеко вперед, спасибо машинному обучению и не только. Голосовые помощники больше не похожи на плохо смазанных роботов, у которых всегда одна интонация, да и та раздражает. Они научились (более или менее) нормально понимать запросы человека и гораздо адекватнее на них отвечать.
При этом нужно помнить, что речь — это тоже данные. И, как любые данные, речь тоже можно анализировать. А в ряде случаев — нужно. Меня зовут Алексей Новгородов, я ведущий разработчик дирекции по продуктам и технологиям больших данных. Сегодня я расскажу вам про один из наших продуктов — аудиоаналитику.
Читать: https://habr.com/ru/post/657225/
Речевые технологии шагнули далеко вперед, спасибо машинному обучению и не только. Голосовые помощники больше не похожи на плохо смазанных роботов, у которых всегда одна интонация, да и та раздражает. Они научились (более или менее) нормально понимать запросы человека и гораздо адекватнее на них отвечать.
При этом нужно помнить, что речь — это тоже данные. И, как любые данные, речь тоже можно анализировать. А в ряде случаев — нужно. Меня зовут Алексей Новгородов, я ведущий разработчик дирекции по продуктам и технологиям больших данных. Сегодня я расскажу вам про один из наших продуктов — аудиоаналитику.
Читать: https://habr.com/ru/post/657225/
👍1
Breaking Into Science
INTRODUCTION
When it comes to data science initiatives, no one ever appears to be able to give a clear explanation of how the entire process works. From data collection to data analysis and presentation.
In this write up, I dissect the data science...
Read: https://goodycyb.hashnode.dev/breaking-into-science
INTRODUCTION
When it comes to data science initiatives, no one ever appears to be able to give a clear explanation of how the entire process works. From data collection to data analysis and presentation.
In this write up, I dissect the data science...
Read: https://goodycyb.hashnode.dev/breaking-into-science
Reclassifying data to manufacture statistics
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/03/reclassifying-data-to-manufacture-statistics.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/03/reclassifying-data-to-manufacture-statistics.html
What to consider when migrating data warehouse to Amazon Redshift
Read: https://aws.amazon.com/blogs/big-data/what-to-consider-when-migrating-data-warehouse-to-amazon-redshift/
Read: https://aws.amazon.com/blogs/big-data/what-to-consider-when-migrating-data-warehouse-to-amazon-redshift/
Four Oracle Analytics Dataset Editor Tricks Every Dataset Author Should Know
Oracle Analytics provides powerful self-service visual data editing capabilities to let you quickly and easily clean, normalize, and enrich data for analysis. This post provides quick and helpful tricks you can apply in the Dataset editor when preparing datasets for analysis.
Read: https://blogs.oracle.com/analytics/post/four-oracle-analytics-dataset-editor-tricks-every-dataset-author-should-know
Oracle Analytics provides powerful self-service visual data editing capabilities to let you quickly and easily clean, normalize, and enrich data for analysis. This post provides quick and helpful tricks you can apply in the Dataset editor when preparing datasets for analysis.
Read: https://blogs.oracle.com/analytics/post/four-oracle-analytics-dataset-editor-tricks-every-dataset-author-should-know
Oracle
Four Oracle Analytics Dataset Editor Tricks Every Dataset Author Should Know
Oracle Analytics provides powerful self-service visual data editing capabilities to let you quickly and easily clean, normalize, and enrich data for analysis. This post provides quick and helpful tricks you can apply in the Dataset editor when preparing datasets…
Сеть данных: как уравновесить централизацию и децентрализацию
Архитектура сети данных (data mesh) распределяет владение данными среди команд из разных предметных областей, с федеративным управлением и децентрализованными продуктами по обработке данных. Сеть данных отличается от других аналогичных архитектур именно своей высокой децентрализацией: она распределена, а не централизована.
Читать: https://habr.com/ru/post/657351/
Архитектура сети данных (data mesh) распределяет владение данными среди команд из разных предметных областей, с федеративным управлением и децентрализованными продуктами по обработке данных. Сеть данных отличается от других аналогичных архитектур именно своей высокой децентрализацией: она распределена, а не централизована.
Читать: https://habr.com/ru/post/657351/
Scrape Google Carousel Results with Python
Prerequisites
What will be scraped
Full Code
Code Explanation
Links
Outro
Prerequisites
Install libraries:
pip install requests parsel google-search-results
Basic knowledge scraping with CSS selectors
CSS selectors declare which part of the mark...
Read: https://serpapi.hashnode.dev/scrape-google-carousel-results-with-python
Prerequisites
What will be scraped
Full Code
Code Explanation
Links
Outro
Prerequisites
Install libraries:
pip install requests parsel google-search-results
Basic knowledge scraping with CSS selectors
CSS selectors declare which part of the mark...
Read: https://serpapi.hashnode.dev/scrape-google-carousel-results-with-python
👍1
Dummy models for dummies
Sometimes in your data science work you need to prove that your model is better than a 'dummy' model. Instead of write your own random guess snippet, you can take advantage of dummy models from sklearn package. We will be using one dummy model for re...
Read: https://hanhhoang.hashnode.dev/dummy-models-for-dummies
Sometimes in your data science work you need to prove that your model is better than a 'dummy' model. Instead of write your own random guess snippet, you can take advantage of dummy models from sklearn package. We will be using one dummy model for re...
Read: https://hanhhoang.hashnode.dev/dummy-models-for-dummies