Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.81K subscribers
570 photos
3 videos
2 files
2.93K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Что в глубинах Data Lake? Строим архитектуру, укладываем слои, распределяем ответственность

Привет, Хабр! Меня зовут Григорий Коваль, я технический руководитель Core Data Lake центра Big Data МТС. Сегодня я расскажу о том, какие слои находятся внутри Data Lake, как построить архитектуру базы данных и чем распределенный Data Mesh-подход отличается от монолитного хранения данных.
Для создания Data Lake нужен итерационный подход – agile и все, что с этим связано. Еще необходимо правильно организовать работу команд, синхронизировать их распределить ответственность между участниками. Тогда получится прямая связь между пользователями и людьми, которые развивают витрины данных или домены. В этой статье поговорим о задачах, архитектуре и проблемах развития Data lake, а также обсудим способы решения возникающих проблем, специфику процессов и перспективы развития.

Читать: https://habr.com/ru/post/655779/?utm_campaign=655779
👍1
Enterprise Class Hadoop, the Best Tool for Mining Data

This is a special contributed post by Charles Zedlewski (@zedlewski), VP of Products at Cloudera, about Oracle's and Cloudera's joint work in bringing enterprise-grade Hadoop to the corporate computing environment. Strata + Hadoop World in Singapore is just around the corner and we were reminded abo...

Read: https://blogs.oracle.com/bigdata/post/enterprise-class-hadoop-the-best-tool-for-mining-data
Build a cost-effective extension to your Elasticsearch cluster with Amazon OpenSearch Service

During the past year, we’ve seen customers running self-managed Elasticsearch clusters on AWS who were running out of compute and storage capacity because of the non-elasticity of their clusters. They adopted Amazon OpenSearch Service (Successor To Amazon Elasticsearch Service) to benefit from better flexibility for their logs and enhanced retention periods. In this post, we […]

Read: https://aws.amazon.com/blogs/big-data/build-a-cost-effective-extension-to-your-elasticsearch-cluster-with-amazon-opensearch-service/
10 вопросов на позицию специалиста по Data Science

По 5 вопросов с собеседований из двух обязательных для Data Scientist областей знаний — теории вероятности и машинного обучения

Читать: «10 вопросов на позицию специалиста по Data Science»
Big Data и лучшие инструменты аналитики в 2021 году

Обзор самых популярных инструментов аналитики на 2021 год.

Читать: «Big Data и лучшие инструменты аналитики в 2021 году»
Что нужно знать, чтобы построить карьеру в Big Data: объясняет эксперт

Эксперт из мира Big Data рассказывает о базовых знаниях и продвинутых навыках дата-аналитиков, дата-инженеров и специалистов в области Data Science.

Читать: «Что нужно знать, чтобы построить карьеру в Big Data: объясняет эксперт»
How to determine your goals and metrics to adopt a data-informed culture

When you are thinking about your Engineering analytics, some common questions might cross your mind:


What should I be tracking?What are other companies in my industry tracking?What goals should each team be aiming for?


There is no single set of m...

Read: https://allthingscodequality.hashnode.dev/how-to-determine-your-goals-and-metrics-to-adopt-a-data-informed-culture
WFM: планирование рабочего времени и управление персоналом

Одной из проблем, свойственным заведениям из сферы HoReCa (рестораны, фастфуды, кафе и отели) и Call Center/Contact Center, является планирование расписания. Проблемы с планированием, в первую очередь, возникают из-за плавающих графиков, различных типов совмещений и построения рабочих графиков исходя из квалификации сотрудников (компетенции). Особенно остро данный вопрос стоит у крупных сетей с большим товарооборотом, где правильная расстановка смен определяет качество обслуживания, оперативность и, самое главное, влияет на выручку и прибыль заведения либо всей сети.

Для решения данных вопросов были придуманы многочисленные системы планирования, учета и оптимизации рабочего времени сотрудников (workforce management, WFM), которые уже не первый год пользуются популярностью за рубежом.


Читать: https://habr.com/ru/post/655813/
Django Datta Able - Premium Starter

Hello Coders!
This article presents a simple Django Starter crafted by AppSeed on top of a colorful Bootstrap design. Django Datta Able is a premium starter that provides a solid codebase enhanced with database, authentication, and Docker support on...

Read: https://app-generator.hashnode.dev/django-datta-able-premium-starter
Guide to Install Modules in Python

Python is a popular open-source development project, with a large active supporting community of contributors and users, which makes their software available for other Python developers to use under open source license terms.
This allows Python users...

Read: https://madhuripatil.hashnode.dev/guide-to-install-modules-in-python
How to boost a career in computer science.

Computer Science and Information Technology are a wide field and contain numerous domains such as data science, networking, software development, information security, database management, big data & Hadoop, and artificial intelligence moreover, stud...

Read: https://hashnode.com/post/how-to-boost-a-career-in-computer-science-cky8cjrxb02iv8ps1g67w130v
Что такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья

Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей. Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью.


Читать: https://habr.com/ru/post/656485/
The Cross Validation - [Theory]

Introduction
Cross-validation is a technique for validating the model efficiency by training it on the subset of input data and testing on a previously unseen subset of the input data. We can also say that it is a technique to check how a statistical...

Read: https://blog.learnml.xyz/the-cross-validation-theory
How to save a Machine Learning Model?

Introduction
In Machine learning, while working with the scikit-learn (sklearn) library or any other modules, we need to save the trained models in a file and restore them in order to reuse them to compare the model with other models, to test the mod...

Read: https://blog.learnml.xyz/how-to-save-a-machine-learning-model
ЕГРЮЛ, ЕГРИП в виде архивов ФНС, csv, xml, json (API) и анализ данных

С началом войны РФ с Украиной мои статьи потеряли смысл на фоне этого ада. Продуктивно работать почти невозможно. Кто-то потерял дом, кто-то детей. Миллионы беженцев.

Два из трёх этажей своего дома я отдал под размещение двух семей беженцев с детьми. Если у вас есть возможности, помогайте нуждающимся.

Деньги на ЕГРИП были собраны донатами до войны. С опозданием, но я должен выполнить обещанное.

Выкладываем архивы ФНС РФ, данные в csv, немного интересных отчётов.


Читать: https://habr.com/ru/post/656563/