Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.81K subscribers
570 photos
3 videos
2 files
2.93K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Day 3/100

Deltalake - [ Intro and Quick Start ]
key features -

ACID transactions
schema enforcement on writes
Unification of batch and streaming - A table in Delta Lake is a batch table as well as a streaming source and sink.
Time travel
Supports merge, upd...

Read: https://rawdatareaders.hashnode.dev/day-3100
Oracle named a Visionary in the 2022 Gartner® Magic Quadrant for Analytics and Business Intelligence Platforms

Oracle named a visionary in the 2022 Gartner® Magic Quadrant for Analytics and Business Intelligence Platforms

Read: https://blogs.oracle.com/analytics/post/oracle-named-a-visionary-in-the-2022-gartner-magic-quadrant-for-analytics-and-business-intelligence-platforms-onwards-upwards
Managing Content in Oracle Analytics

My Oracle Analytics instance has a lot of user-generated content. How do I know what's there? How do I manage content created by users who are no longer around? How can I assign content to a different user?
A feature in the March 2022 update of Oracle Analytics Cloud provides new ways to manage the content in Oracle Analytics.

Read: https://blogs.oracle.com/analytics/post/managing-content-in-oracle-analytics
What are Model Parameters and Hyperparameters?

Introduction
The two most confusing terms in Machine Learning are model parameters and hyperparameters. In this article, we will try to understand what these terms mean and how they are different from each other.
Model Parameter
A model parameter is...

Read: https://blog.learnml.xyz/what-are-model-parameters-and-hyperparameters
Warehousing with Google’s Big Query

Data, in the modern world, is decentralized and is being generated and collected at a record pace. To ensure that this data is collected and processed in a manner that enables businesses and organizations to achieve their business goals, specialized ...

Read: https://anujsyal.com/warehousing-with-googles-big-query
Что лучше: Spark Structured Streaming или полное прекращение работы прода?

Правильное построение ETL-процессов (преобразования данных) — сложная задача, а при большом объёме обрабатываемых данных неизбежно возникают проблемы с ресурсами. Поэтому нам требуется выискивать новые архитектурные решения, способные обеспечить стабильность расчётов и доступность данных, а при необходимости и масштабируемость — с минимальными усилиями.

Когда я пришел в Ozon, мне пришлось столкнуться с огромным количеством ETL-джоб. Прежде чем применить модель машинного обучения, сырые данные проходят множество этапов обработки. А само применение модели (то, ради чего существует команда) занимает всего 5% времени.


Читать: https://habr.com/ru/post/656883/
Как мы создавали нашу аудиоаналитику и что она умеет

Речевые технологии шагнули далеко вперед, спасибо машинному обучению и не только. Голосовые помощники больше не похожи на плохо смазанных роботов, у которых всегда одна интонация, да и та раздражает. Они научились (более или менее) нормально понимать запросы человека и гораздо адекватнее на них отвечать.

При этом нужно помнить, что речь — это тоже данные. И, как любые данные, речь тоже можно анализировать. А в ряде случаев — нужно. Меня зовут Алексей Новгородов, я ведущий разработчик дирекции по продуктам и технологиям больших данных. Сегодня я расскажу вам про один из наших продуктов — аудиоаналитику.


Читать: https://habr.com/ru/post/657225/
👍1
Breaking Into Science

INTRODUCTION
When it comes to data science initiatives, no one ever appears to be able to give a clear explanation of how the entire process works. From data collection to data analysis and presentation.
In this write up, I dissect the data science...

Read: https://goodycyb.hashnode.dev/breaking-into-science
Four Oracle Analytics Dataset Editor Tricks Every Dataset Author Should Know

Oracle Analytics provides powerful self-service visual data editing capabilities to let you quickly and easily clean, normalize, and enrich data for analysis. This post provides quick and helpful tricks you can apply in the Dataset editor when preparing datasets for analysis.

Read: https://blogs.oracle.com/analytics/post/four-oracle-analytics-dataset-editor-tricks-every-dataset-author-should-know
Сеть данных: как уравновесить централизацию и децентрализацию

Архитектура сети данных (data mesh) распределяет владение данными среди команд из разных предметных областей, с федеративным управлением и децентрализованными продуктами по обработке данных. Сеть данных отличается от других аналогичных архитектур именно своей высокой децентрализацией: она распределена, а не централизована.


Читать: https://habr.com/ru/post/657351/
Scrape Google Carousel Results with Python

Prerequisites
What will be scraped
Full Code
Code Explanation


Links
Outro

Prerequisites

Install libraries:
pip install requests parsel google-search-results

Basic knowledge scraping with CSS selectors
CSS selectors declare which part of the mark...

Read: https://serpapi.hashnode.dev/scrape-google-carousel-results-with-python
👍1
Dummy models for dummies

Sometimes in your data science work you need to prove that your model is better than a 'dummy' model. Instead of write your own random guess snippet, you can take advantage of dummy models from sklearn package. We will be using one dummy model for re...

Read: https://hanhhoang.hashnode.dev/dummy-models-for-dummies
Day 5/100

Delta Lake [Part 3] -
Delta table Streaming
Delta Lake is deeply integrated with Spark Structured Streaming through readStream and writeStream along with following features,

Coalesce small files
Maintains Exactly-once processing
Discovering new file...

Read: https://rawdatareaders.hashnode.dev/day-5100
KNN from scratch VS sklearn

Welcome👋,
In this article, we are going to build our own KNN algorithm from scratch and apply it to 23 different feature data set using Numpy and Pandas libraries.
First, let us get some idea about the KNN or K Nearest Neighbour algorithm.
What is t...

Read: https://dipankarmedhi.hashnode.dev/knn-from-scratch-vs-sklearn
Нейросетевой подход к моделированию транзакций расчетного счета

Естественным источником информации в банке о покупках клиента являются карточные транзакции – любые операции, проводимые по дебетовым или кредитным картам. При этом денежные операции клиента не ограничиваются транзакциями, проводимыми с помощью карт. Оплата ЖКХ, оплата образования, крупные покупки и другие денежные переводы – это примеры транзакций, которые никак не привязаны к карте клиента, но при этом они ассоциируются с другой банковской сущностью – расчетным счетом.

Про то, как мы в Альфа-Банке применяем карточные транзакции в моделировании, мы уже рассказывали в этом посте. Логичным развитием идеи использования карточной транзакционной истории клиента является использование данных, которые содержатся в клиентской истории транзакций расчетного счета.


Читать: https://habr.com/ru/post/657577/
👍2
Starting as a Junior Data Analyst... at 40?

Hell yeah I'm excited, I landed my first opportunity for a job as a Data Analyst!
Well, it's not guaranteed yet. I'm not celebrating something I don't have, just the opportunity because, that's enough reason to celebrate! However, no matter how this ...

Read: https://franciscorua.hashnode.dev/starting-as-a-junior-data-analyst-at-40
Подсчет количества пар товаров в продуктовых чеках с помощью трех инструментов: Python, Spark, SQL

Добрый день, уважаемые читатели! Не открою для большинства секрета, если скажу, что большая часть задач в материалах к учебным курсам сформулирована шаблонно. Какие-то вопросы в принципе могут представлять интерес, но очень оторваны от реальных потребностей бизнеса. Какие-то моменты выдернуты из книг, поэтому лучше знакомиться с ними, читая первоисточник. Но есть кейсы, которые на первый взгляд хоть и кажутся простыми и стереотипными, но, если присмотреться к ним более пристально, могут дать пищу для размышления. Вот на одной из таких полезных задач мне хотелось бы заострить внимание в данной заметке. Формулируется вопрос следующим образом: «Необходимо определить количество пар товаров в продуктовых чеках. Вывести 10 самых частых сочетаний». Пример, чек 1 содержит товар 1, товар 2, товар 3, а чек 2 -  товар 1, товар 2, товар 5. Следовательно, комбинация «товар 1, товар 2» встречается 2 раза, «товар 1 , товар 3» один раз и т.д.

В исходнике решать данный кейс предлагалось силами Python. Но реальная жизнь может потребовать от аналитика данных умения выполнять данное упражнение как с помощью SQL, так и Spark. Следовательно, рассмотрим три подхода, оставив за скобками разговора четвертый вариант – расчеты на платформах BI.


Читать: https://habr.com/ru/post/657623/