Эволюция рекомендаций ресторанов в Delivery Club. Часть 1
Всем привет! Меня зовут Иван Максимов, я работаю Lead Data Scientist’ом в команде рекомендаций и A/B-тестирования Delivery Club. Это первая из серии статей про нашу рекомендательную систему. Я расскажу о том, как мы определили проблемы предыдущего подхода к рекомендациям, и как начали строить новый: с оптимизацией рекомендаций сразу под несколько бизнес-метрик.
Статья будет интересна data scientist’ам и менеджерам продуктов, которые хотят с нуля построить систему рекомендации контента.
Читать: https://habr.com/ru/post/656505/
Всем привет! Меня зовут Иван Максимов, я работаю Lead Data Scientist’ом в команде рекомендаций и A/B-тестирования Delivery Club. Это первая из серии статей про нашу рекомендательную систему. Я расскажу о том, как мы определили проблемы предыдущего подхода к рекомендациям, и как начали строить новый: с оптимизацией рекомендаций сразу под несколько бизнес-метрик.
Статья будет интересна data scientist’ам и менеджерам продуктов, которые хотят с нуля построить систему рекомендации контента.
Читать: https://habr.com/ru/post/656505/
Insertion Sorting Algorithm
Introduction
Insertion sort is a simple and efficient comparison sort. In this algorithm, each iteration removes an element from the input data and inserts it into the correct position in the list is sorted.
Insertion Sort repeatedly invokes an inser...
Read: https://blog.learnml.xyz/insertion-sorting-algorithm
Introduction
Insertion sort is a simple and efficient comparison sort. In this algorithm, each iteration removes an element from the input data and inserts it into the correct position in the list is sorted.
Insertion Sort repeatedly invokes an inser...
Read: https://blog.learnml.xyz/insertion-sorting-algorithm
Machine Learning | Underfitting and Overfitting [Theory]
Introduction
Let us consider that we are designing a machine learning model. A model is said to be a good machine learning model if it generalizes any new input data from the problem domain in a proper way. This helps us to make predictions in the fu...
Read: https://blog.learnml.xyz/machine-learning-or-underfitting-and-overfitting-theory
Introduction
Let us consider that we are designing a machine learning model. A model is said to be a good machine learning model if it generalizes any new input data from the problem domain in a proper way. This helps us to make predictions in the fu...
Read: https://blog.learnml.xyz/machine-learning-or-underfitting-and-overfitting-theory
Accelerate your data warehouse migration to Amazon Redshift – Part 5
Read: https://aws.amazon.com/blogs/big-data/part-5-accelerate-your-data-warehouse-migration-to-amazon-redshift/
Read: https://aws.amazon.com/blogs/big-data/part-5-accelerate-your-data-warehouse-migration-to-amazon-redshift/
Interview Jitters
Recently I was shortlisted for a data analyst position interview, and I felt it is important to share the experience to familiarize you with some of the questions they asked me to confirm my competence and level of skills.
Before we get into it, do y...
Read: https://chalo.hashnode.dev/interview-jitters
Recently I was shortlisted for a data analyst position interview, and I felt it is important to share the experience to familiarize you with some of the questions they asked me to confirm my competence and level of skills.
Before we get into it, do y...
Read: https://chalo.hashnode.dev/interview-jitters
Day 1/100
HDFS - [Hadoop Distributed File System]
HDFS architecture looks like this -
NameNode holds all the metadata about files and directory structure and then there are
DataNodes which basically hold files in the form of blocks so DataNode holds blocks o...
Read: https://rawdatareaders.hashnode.dev/day-1
HDFS - [Hadoop Distributed File System]
HDFS architecture looks like this -
NameNode holds all the metadata about files and directory structure and then there are
DataNodes which basically hold files in the form of blocks so DataNode holds blocks o...
Read: https://rawdatareaders.hashnode.dev/day-1
Permutation Importance -Machine Learning Explainability
Introduction
Machine learning models often act as black boxes, meaning that they can make good predictions but it is difficult to fully comprehend the decisions that drive those predictions. Gaining insights from a model is not an easy task, despite ...
Read: https://blog.learnml.xyz/permutation-importance-machine-learning-explainability
Introduction
Machine learning models often act as black boxes, meaning that they can make good predictions but it is difficult to fully comprehend the decisions that drive those predictions. Gaining insights from a model is not an easy task, despite ...
Read: https://blog.learnml.xyz/permutation-importance-machine-learning-explainability
Getting started with a Data Challenge: Thinking like an Analyst
Probelem Scenario: Excited about a data analytics challenge, you signed up and ready to put your analytics skills into good use.
But halfway through the process, you blank out. You have no idea how to proceed with the challenge and how to position y...
Read: https://aviatorifeanyi.hashnode.dev/getting-started-with-a-data-challenge-thinking-like-an-analyst-cl11irayo017xlgnvch9kfloz
Probelem Scenario: Excited about a data analytics challenge, you signed up and ready to put your analytics skills into good use.
But halfway through the process, you blank out. You have no idea how to proceed with the challenge and how to position y...
Read: https://aviatorifeanyi.hashnode.dev/getting-started-with-a-data-challenge-thinking-like-an-analyst-cl11irayo017xlgnvch9kfloz
Aviator Ifeanyi's Blog
Getting started with a Data Challenge: Thinking like an Analyst
Probelem Scenario: Excited about a data analytics challenge, you signed up and ready to put your analytics skills into good use.
But halfway through the process, you blank out. You have no idea how to proceed with the challenge and how to position y...
But halfway through the process, you blank out. You have no idea how to proceed with the challenge and how to position y...
Normalization Vs Standardization
Introduction
Feature Scaling is one of the most important data preprocessing steps in machine learning. Algorithms that compute the distance between the features are biased towards numerically larger values if the data is not scaled. Tree-based algor...
Read: https://blog.learnml.xyz/normalization-vs-standardization
Introduction
Feature Scaling is one of the most important data preprocessing steps in machine learning. Algorithms that compute the distance between the features are biased towards numerically larger values if the data is not scaled. Tree-based algor...
Read: https://blog.learnml.xyz/normalization-vs-standardization
Загрузка stage слоя DWH. Часть 3
Каждый разработчик потоков Nifi сталкивается с тем, что через некоторое время потоки начинают повторятся. Бизнес хочет получать данные по одному расписанию, а к определённым моментам времени. И возникает ситуация, когда управлять большим разросшимся потоком становится неудобно, сложно. Устранять ошибку проектирования приходится в десятках процессоры групп. И так далее...
Рассмотрим подход к параметризованному потоку загрузки, универсальному в сложившемся окружении, при обкатанных правилах формирования DWH, выполнения запросов к источникам, интервалам загрузки.
Читать: https://habr.com/ru/post/656891/
Каждый разработчик потоков Nifi сталкивается с тем, что через некоторое время потоки начинают повторятся. Бизнес хочет получать данные по одному расписанию, а к определённым моментам времени. И возникает ситуация, когда управлять большим разросшимся потоком становится неудобно, сложно. Устранять ошибку проектирования приходится в десятках процессоры групп. И так далее...
Рассмотрим подход к параметризованному потоку загрузки, универсальному в сложившемся окружении, при обкатанных правилах формирования DWH, выполнения запросов к источникам, интервалам загрузки.
Читать: https://habr.com/ru/post/656891/
Day 2/100
HDFS [Hadoop Distributed File System] - Part 2
Snapshots
Snapshots lets you save the current state of filesystem, so that rollbacks while upgrade are possible.
Only one snapshot can exists, basically it reads existing and creates new checkpoint with...
Read: https://rawdatareaders.hashnode.dev/day-2-of-100
HDFS [Hadoop Distributed File System] - Part 2
Snapshots
Snapshots lets you save the current state of filesystem, so that rollbacks while upgrade are possible.
Only one snapshot can exists, basically it reads existing and creates new checkpoint with...
Read: https://rawdatareaders.hashnode.dev/day-2-of-100
Визуализация данных с помощью веб-фреймворка Dash (часть 2)
В предыдущей части статьи мы разбирали, что такое dash в общем, и создавали одностраничный дэшборд, взяв за основу датасет драгоценных камней с kaggle.
Но! Задачи, которые падают на нас ,не всегда просты и не всегда возможно ограничить себя одной страницей на Дашборде. В этой статье я покажу, как создать многостраничный дэшборд, используя sidebar в качестве навигационного элемента, и наполнить страницы разного рода контентом.
Читать: https://habr.com/ru/post/656621/
В предыдущей части статьи мы разбирали, что такое dash в общем, и создавали одностраничный дэшборд, взяв за основу датасет драгоценных камней с kaggle.
Но! Задачи, которые падают на нас ,не всегда просты и не всегда возможно ограничить себя одной страницей на Дашборде. В этой статье я покажу, как создать многостраничный дэшборд, используя sidebar в качестве навигационного элемента, и наполнить страницы разного рода контентом.
Читать: https://habr.com/ru/post/656621/
Types of MEAN - ( Measure of Central Tendency )
Introduction
To represent a dataset as a 1-number summary, we use the central tendency measure. There exist three central tendency measures i.e. Mean, Median & Mode. Why was there a need for these three measures when only one (Mean) could have done t...
Read: https://blog.learnml.xyz/types-of-mean-measure-of-central-tendency
Introduction
To represent a dataset as a 1-number summary, we use the central tendency measure. There exist three central tendency measures i.e. Mean, Median & Mode. Why was there a need for these three measures when only one (Mean) could have done t...
Read: https://blog.learnml.xyz/types-of-mean-measure-of-central-tendency
Как в PayPal разработали Dione — Open-source-библиотеку индексирования данных для HDFS и Spark
Maksym Kaharlytsky on Unsplash
Команда VK Cloud Solutions перевела историю о том, как инженеры PayPal столкнулись с проблемой обработки данных. Если пользователю требовалось получить определенную строку или выполнить многострочный запрос, данные нужно было дублировать, а для их обработки использовать отдельный стек технологий.
Чтобы этого избежать, в PayPal разработали новую Open-source-библиотеку, которая позволяет быстрее выполнять многострочные и однострочные выборки из больших данных. Во время работы над библиотекой они создали новый формат хранения индексов Avro B-Tree и для пользователей Spark реализовали API на Scala и Python.
Читать: https://habr.com/ru/post/656777/
Maksym Kaharlytsky on Unsplash
Команда VK Cloud Solutions перевела историю о том, как инженеры PayPal столкнулись с проблемой обработки данных. Если пользователю требовалось получить определенную строку или выполнить многострочный запрос, данные нужно было дублировать, а для их обработки использовать отдельный стек технологий.
Чтобы этого избежать, в PayPal разработали новую Open-source-библиотеку, которая позволяет быстрее выполнять многострочные и однострочные выборки из больших данных. Во время работы над библиотекой они создали новый формат хранения индексов Avro B-Tree и для пользователей Spark реализовали API на Scala и Python.
Читать: https://habr.com/ru/post/656777/
👍1
End-to-end data engineering project - batch edition
Read: https://www.startdataengineering.com/post/data-engineering-project-e2e/
Read: https://www.startdataengineering.com/post/data-engineering-project-e2e/
Histogram - Visualize how frequently data in each class occur in the dataset
Introduction
In this article are going to see about what is a histogram graph and different interpretations of the histogram graphs. Histograms group the data in bins and are the fastest way to get an idea about the distribution of each attribute in ...
Read: https://blog.learnml.xyz/histogram-visualize-how-frequently-data-in-each-class-occur-in-the-dataset
Introduction
In this article are going to see about what is a histogram graph and different interpretations of the histogram graphs. Histograms group the data in bins and are the fastest way to get an idea about the distribution of each attribute in ...
Read: https://blog.learnml.xyz/histogram-visualize-how-frequently-data-in-each-class-occur-in-the-dataset
kNN Model Complexity
Introduction
K-Nearest Neighbour is one of the simplest Machine Learning algorithms based on the Supervised Learning technique. It assumes the similarity between the new case/data and available cases and puts the new case into the category that is mo...
Read: https://blog.learnml.xyz/knn-model-complexity
Introduction
K-Nearest Neighbour is one of the simplest Machine Learning algorithms based on the Supervised Learning technique. It assumes the similarity between the new case/data and available cases and puts the new case into the category that is mo...
Read: https://blog.learnml.xyz/knn-model-complexity
Federated access to Amazon Redshift clusters in AWS China Regions with Active Directory Federation Services
Read: https://aws.amazon.com/blogs/big-data/federated-access-to-amazon-redshift-clusters-in-aws-china-regions-with-active-directory-federation-services/
Read: https://aws.amazon.com/blogs/big-data/federated-access-to-amazon-redshift-clusters-in-aws-china-regions-with-active-directory-federation-services/
Day 3/100
Deltalake - [ Intro and Quick Start ]
key features -
ACID transactions
schema enforcement on writes
Unification of batch and streaming - A table in Delta Lake is a batch table as well as a streaming source and sink.
Time travel
Supports merge, upd...
Read: https://rawdatareaders.hashnode.dev/day-3100
Deltalake - [ Intro and Quick Start ]
key features -
ACID transactions
schema enforcement on writes
Unification of batch and streaming - A table in Delta Lake is a batch table as well as a streaming source and sink.
Time travel
Supports merge, upd...
Read: https://rawdatareaders.hashnode.dev/day-3100
Improve reusability and security using Amazon Athena parameterized queries
Read: https://aws.amazon.com/blogs/big-data/improve-reusability-and-security-using-amazon-athena-parameterized-queries/
Read: https://aws.amazon.com/blogs/big-data/improve-reusability-and-security-using-amazon-athena-parameterized-queries/
Oracle named a Visionary in the 2022 Gartner® Magic Quadrant™ for Analytics and Business Intelligence Platforms
Oracle named a visionary in the 2022 Gartner® Magic Quadrant™ for Analytics and Business Intelligence Platforms
Read: https://blogs.oracle.com/analytics/post/oracle-named-a-visionary-in-the-2022-gartner-magic-quadrant-for-analytics-and-business-intelligence-platforms-onwards-upwards
Oracle named a visionary in the 2022 Gartner® Magic Quadrant™ for Analytics and Business Intelligence Platforms
Read: https://blogs.oracle.com/analytics/post/oracle-named-a-visionary-in-the-2022-gartner-magic-quadrant-for-analytics-and-business-intelligence-platforms-onwards-upwards
Oracle
Oracle named a Visionary in the 2022 Gartner® Magic Quadrant™ for Analytics and Business Intelligence Platforms