Guide to Install Modules in Python
Python is a popular open-source development project, with a large active supporting community of contributors and users, which makes their software available for other Python developers to use under open source license terms.
This allows Python users...
Read: https://madhuripatil.hashnode.dev/guide-to-install-modules-in-python
Python is a popular open-source development project, with a large active supporting community of contributors and users, which makes their software available for other Python developers to use under open source license terms.
This allows Python users...
Read: https://madhuripatil.hashnode.dev/guide-to-install-modules-in-python
How to boost a career in computer science.
Computer Science and Information Technology are a wide field and contain numerous domains such as data science, networking, software development, information security, database management, big data & Hadoop, and artificial intelligence moreover, stud...
Read: https://hashnode.com/post/how-to-boost-a-career-in-computer-science-cky8cjrxb02iv8ps1g67w130v
Computer Science and Information Technology are a wide field and contain numerous domains such as data science, networking, software development, information security, database management, big data & Hadoop, and artificial intelligence moreover, stud...
Read: https://hashnode.com/post/how-to-boost-a-career-in-computer-science-cky8cjrxb02iv8ps1g67w130v
Что такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья
Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей. Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью.
Читать: https://habr.com/ru/post/656485/
Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей. Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью.
Читать: https://habr.com/ru/post/656485/
The Cross Validation - [Theory]
Introduction
Cross-validation is a technique for validating the model efficiency by training it on the subset of input data and testing on a previously unseen subset of the input data. We can also say that it is a technique to check how a statistical...
Read: https://blog.learnml.xyz/the-cross-validation-theory
Introduction
Cross-validation is a technique for validating the model efficiency by training it on the subset of input data and testing on a previously unseen subset of the input data. We can also say that it is a technique to check how a statistical...
Read: https://blog.learnml.xyz/the-cross-validation-theory
How to save a Machine Learning Model?
Introduction
In Machine learning, while working with the scikit-learn (sklearn) library or any other modules, we need to save the trained models in a file and restore them in order to reuse them to compare the model with other models, to test the mod...
Read: https://blog.learnml.xyz/how-to-save-a-machine-learning-model
Introduction
In Machine learning, while working with the scikit-learn (sklearn) library or any other modules, we need to save the trained models in a file and restore them in order to reuse them to compare the model with other models, to test the mod...
Read: https://blog.learnml.xyz/how-to-save-a-machine-learning-model
ЕГРЮЛ, ЕГРИП в виде архивов ФНС, csv, xml, json (API) и анализ данных
С началом войны РФ с Украиной мои статьи потеряли смысл на фоне этого ада. Продуктивно работать почти невозможно. Кто-то потерял дом, кто-то детей. Миллионы беженцев.
Два из трёх этажей своего дома я отдал под размещение двух семей беженцев с детьми. Если у вас есть возможности, помогайте нуждающимся.
Деньги на ЕГРИП были собраны донатами до войны. С опозданием, но я должен выполнить обещанное.
Выкладываем архивы ФНС РФ, данные в csv, немного интересных отчётов.
Читать: https://habr.com/ru/post/656563/
С началом войны РФ с Украиной мои статьи потеряли смысл на фоне этого ада. Продуктивно работать почти невозможно. Кто-то потерял дом, кто-то детей. Миллионы беженцев.
Два из трёх этажей своего дома я отдал под размещение двух семей беженцев с детьми. Если у вас есть возможности, помогайте нуждающимся.
Деньги на ЕГРИП были собраны донатами до войны. С опозданием, но я должен выполнить обещанное.
Выкладываем архивы ФНС РФ, данные в csv, немного интересных отчётов.
Читать: https://habr.com/ru/post/656563/
История появления профессии аналитика данных. Понятие данных, аналитика данных. Почему появились аналитики данных
История анализа данных начинается примерно с 70-х годов прошлого века, когда Американский математик и ученый Джон Тьюки опубликовал свою книгу “Exploratory Data Analysis” или “Разведывательный Анализ Данных”. В книге Тьюки пишет, что необходимо исследовать и анализировать данные для подтверждения или опровержения выдвигаемых гипотез.
Давай подумаем, что же такое “Данные” и зачем их вообще нужно анализировать.
Данные - это представление фактов или сведений о чем-либо в виде, который может понять и интерпретировать человек, а также передать эти факты/сведения другим.
Примеров данных в нашей жизни можно привести очень много: записи банковских транзакций, записи с различных датчиков или видеокамер, технические записи приборов на производствах и предприятиях о режиме работы, онлайн-опросы, журнал посещения тренировок или учебных классов, записки в блокноте, двоичный код из 0 и Также к данным можно относить медиа-контент в виде музыки или видео.
В следующем разделе мы разберём какие типы данных существуют.
Мы поняли, что множество предметов воспроизводят очень много данных вокруг нас.
Читать: https://habr.com/ru/post/656587/
История анализа данных начинается примерно с 70-х годов прошлого века, когда Американский математик и ученый Джон Тьюки опубликовал свою книгу “Exploratory Data Analysis” или “Разведывательный Анализ Данных”. В книге Тьюки пишет, что необходимо исследовать и анализировать данные для подтверждения или опровержения выдвигаемых гипотез.
Давай подумаем, что же такое “Данные” и зачем их вообще нужно анализировать.
Данные - это представление фактов или сведений о чем-либо в виде, который может понять и интерпретировать человек, а также передать эти факты/сведения другим.
Примеров данных в нашей жизни можно привести очень много: записи банковских транзакций, записи с различных датчиков или видеокамер, технические записи приборов на производствах и предприятиях о режиме работы, онлайн-опросы, журнал посещения тренировок или учебных классов, записки в блокноте, двоичный код из 0 и Также к данным можно относить медиа-контент в виде музыки или видео.
В следующем разделе мы разберём какие типы данных существуют.
Мы поняли, что множество предметов воспроизводят очень много данных вокруг нас.
Читать: https://habr.com/ru/post/656587/
Google Colab - Run ML in PaaS
Learning about Machine learning is one of the trending things nowadays. But a lot of people face difficulties, as they don't have a good device, that is powerful enough to train even simpler machine learning models, and there are also a lot of issues...
Read: https://blog.learnml.xyz/google-colab-run-ml-in-paas
Learning about Machine learning is one of the trending things nowadays. But a lot of people face difficulties, as they don't have a good device, that is powerful enough to train even simpler machine learning models, and there are also a lot of issues...
Read: https://blog.learnml.xyz/google-colab-run-ml-in-paas
Эволюция рекомендаций ресторанов в Delivery Club. Часть 1
Всем привет! Меня зовут Иван Максимов, я работаю Lead Data Scientist’ом в команде рекомендаций и A/B-тестирования Delivery Club. Это первая из серии статей про нашу рекомендательную систему. Я расскажу о том, как мы определили проблемы предыдущего подхода к рекомендациям, и как начали строить новый: с оптимизацией рекомендаций сразу под несколько бизнес-метрик.
Статья будет интересна data scientist’ам и менеджерам продуктов, которые хотят с нуля построить систему рекомендации контента.
Читать: https://habr.com/ru/post/656505/
Всем привет! Меня зовут Иван Максимов, я работаю Lead Data Scientist’ом в команде рекомендаций и A/B-тестирования Delivery Club. Это первая из серии статей про нашу рекомендательную систему. Я расскажу о том, как мы определили проблемы предыдущего подхода к рекомендациям, и как начали строить новый: с оптимизацией рекомендаций сразу под несколько бизнес-метрик.
Статья будет интересна data scientist’ам и менеджерам продуктов, которые хотят с нуля построить систему рекомендации контента.
Читать: https://habr.com/ru/post/656505/
Insertion Sorting Algorithm
Introduction
Insertion sort is a simple and efficient comparison sort. In this algorithm, each iteration removes an element from the input data and inserts it into the correct position in the list is sorted.
Insertion Sort repeatedly invokes an inser...
Read: https://blog.learnml.xyz/insertion-sorting-algorithm
Introduction
Insertion sort is a simple and efficient comparison sort. In this algorithm, each iteration removes an element from the input data and inserts it into the correct position in the list is sorted.
Insertion Sort repeatedly invokes an inser...
Read: https://blog.learnml.xyz/insertion-sorting-algorithm
Machine Learning | Underfitting and Overfitting [Theory]
Introduction
Let us consider that we are designing a machine learning model. A model is said to be a good machine learning model if it generalizes any new input data from the problem domain in a proper way. This helps us to make predictions in the fu...
Read: https://blog.learnml.xyz/machine-learning-or-underfitting-and-overfitting-theory
Introduction
Let us consider that we are designing a machine learning model. A model is said to be a good machine learning model if it generalizes any new input data from the problem domain in a proper way. This helps us to make predictions in the fu...
Read: https://blog.learnml.xyz/machine-learning-or-underfitting-and-overfitting-theory
Accelerate your data warehouse migration to Amazon Redshift – Part 5
Read: https://aws.amazon.com/blogs/big-data/part-5-accelerate-your-data-warehouse-migration-to-amazon-redshift/
Read: https://aws.amazon.com/blogs/big-data/part-5-accelerate-your-data-warehouse-migration-to-amazon-redshift/
Interview Jitters
Recently I was shortlisted for a data analyst position interview, and I felt it is important to share the experience to familiarize you with some of the questions they asked me to confirm my competence and level of skills.
Before we get into it, do y...
Read: https://chalo.hashnode.dev/interview-jitters
Recently I was shortlisted for a data analyst position interview, and I felt it is important to share the experience to familiarize you with some of the questions they asked me to confirm my competence and level of skills.
Before we get into it, do y...
Read: https://chalo.hashnode.dev/interview-jitters
Day 1/100
HDFS - [Hadoop Distributed File System]
HDFS architecture looks like this -
NameNode holds all the metadata about files and directory structure and then there are
DataNodes which basically hold files in the form of blocks so DataNode holds blocks o...
Read: https://rawdatareaders.hashnode.dev/day-1
HDFS - [Hadoop Distributed File System]
HDFS architecture looks like this -
NameNode holds all the metadata about files and directory structure and then there are
DataNodes which basically hold files in the form of blocks so DataNode holds blocks o...
Read: https://rawdatareaders.hashnode.dev/day-1
Permutation Importance -Machine Learning Explainability
Introduction
Machine learning models often act as black boxes, meaning that they can make good predictions but it is difficult to fully comprehend the decisions that drive those predictions. Gaining insights from a model is not an easy task, despite ...
Read: https://blog.learnml.xyz/permutation-importance-machine-learning-explainability
Introduction
Machine learning models often act as black boxes, meaning that they can make good predictions but it is difficult to fully comprehend the decisions that drive those predictions. Gaining insights from a model is not an easy task, despite ...
Read: https://blog.learnml.xyz/permutation-importance-machine-learning-explainability
Getting started with a Data Challenge: Thinking like an Analyst
Probelem Scenario: Excited about a data analytics challenge, you signed up and ready to put your analytics skills into good use.
But halfway through the process, you blank out. You have no idea how to proceed with the challenge and how to position y...
Read: https://aviatorifeanyi.hashnode.dev/getting-started-with-a-data-challenge-thinking-like-an-analyst-cl11irayo017xlgnvch9kfloz
Probelem Scenario: Excited about a data analytics challenge, you signed up and ready to put your analytics skills into good use.
But halfway through the process, you blank out. You have no idea how to proceed with the challenge and how to position y...
Read: https://aviatorifeanyi.hashnode.dev/getting-started-with-a-data-challenge-thinking-like-an-analyst-cl11irayo017xlgnvch9kfloz
Aviator Ifeanyi's Blog
Getting started with a Data Challenge: Thinking like an Analyst
Probelem Scenario: Excited about a data analytics challenge, you signed up and ready to put your analytics skills into good use.
But halfway through the process, you blank out. You have no idea how to proceed with the challenge and how to position y...
But halfway through the process, you blank out. You have no idea how to proceed with the challenge and how to position y...
Normalization Vs Standardization
Introduction
Feature Scaling is one of the most important data preprocessing steps in machine learning. Algorithms that compute the distance between the features are biased towards numerically larger values if the data is not scaled. Tree-based algor...
Read: https://blog.learnml.xyz/normalization-vs-standardization
Introduction
Feature Scaling is one of the most important data preprocessing steps in machine learning. Algorithms that compute the distance between the features are biased towards numerically larger values if the data is not scaled. Tree-based algor...
Read: https://blog.learnml.xyz/normalization-vs-standardization
Загрузка stage слоя DWH. Часть 3
Каждый разработчик потоков Nifi сталкивается с тем, что через некоторое время потоки начинают повторятся. Бизнес хочет получать данные по одному расписанию, а к определённым моментам времени. И возникает ситуация, когда управлять большим разросшимся потоком становится неудобно, сложно. Устранять ошибку проектирования приходится в десятках процессоры групп. И так далее...
Рассмотрим подход к параметризованному потоку загрузки, универсальному в сложившемся окружении, при обкатанных правилах формирования DWH, выполнения запросов к источникам, интервалам загрузки.
Читать: https://habr.com/ru/post/656891/
Каждый разработчик потоков Nifi сталкивается с тем, что через некоторое время потоки начинают повторятся. Бизнес хочет получать данные по одному расписанию, а к определённым моментам времени. И возникает ситуация, когда управлять большим разросшимся потоком становится неудобно, сложно. Устранять ошибку проектирования приходится в десятках процессоры групп. И так далее...
Рассмотрим подход к параметризованному потоку загрузки, универсальному в сложившемся окружении, при обкатанных правилах формирования DWH, выполнения запросов к источникам, интервалам загрузки.
Читать: https://habr.com/ru/post/656891/
Day 2/100
HDFS [Hadoop Distributed File System] - Part 2
Snapshots
Snapshots lets you save the current state of filesystem, so that rollbacks while upgrade are possible.
Only one snapshot can exists, basically it reads existing and creates new checkpoint with...
Read: https://rawdatareaders.hashnode.dev/day-2-of-100
HDFS [Hadoop Distributed File System] - Part 2
Snapshots
Snapshots lets you save the current state of filesystem, so that rollbacks while upgrade are possible.
Only one snapshot can exists, basically it reads existing and creates new checkpoint with...
Read: https://rawdatareaders.hashnode.dev/day-2-of-100
Визуализация данных с помощью веб-фреймворка Dash (часть 2)
В предыдущей части статьи мы разбирали, что такое dash в общем, и создавали одностраничный дэшборд, взяв за основу датасет драгоценных камней с kaggle.
Но! Задачи, которые падают на нас ,не всегда просты и не всегда возможно ограничить себя одной страницей на Дашборде. В этой статье я покажу, как создать многостраничный дэшборд, используя sidebar в качестве навигационного элемента, и наполнить страницы разного рода контентом.
Читать: https://habr.com/ru/post/656621/
В предыдущей части статьи мы разбирали, что такое dash в общем, и создавали одностраничный дэшборд, взяв за основу датасет драгоценных камней с kaggle.
Но! Задачи, которые падают на нас ,не всегда просты и не всегда возможно ограничить себя одной страницей на Дашборде. В этой статье я покажу, как создать многостраничный дэшборд, используя sidebar в качестве навигационного элемента, и наполнить страницы разного рода контентом.
Читать: https://habr.com/ru/post/656621/