NEW BOT Телеграм, страница

Data Analysis / Big Data

Сеть данных: как уравновесить централизацию и децентрализацию

Архитектура сети данных (data mesh) распределяет владение данными среди команд из разных предметных областей, с федеративным управлением и децентрализованными продуктами по обработке данных. Сеть данных отличается от других аналогичных архитектур именно своей высокой децентрализацией: она распределена, а не централизована.

Читать: https://habr.com/ru/post/657351/

1.44K views07:22

Data Analysis / Big Data

Scrape Google Carousel Results with Python

Prerequisites
What will be scraped
Full Code
Code Explanation

Links
Outro

Prerequisites

Install libraries:
pip install requests parsel google-search-results

Basic knowledge scraping with CSS selectors
CSS selectors declare which part of the mark...

Read: https://serpapi.hashnode.dev/scrape-google-carousel-results-with-python

👍1

1.78K views07:43

Data Analysis / Big Data

Dummy models for dummies

Sometimes in your data science work you need to prove that your model is better than a 'dummy' model. Instead of write your own random guess snippet, you can take advantage of dummy models from sklearn package. We will be using one dummy model for re...

Read: https://hanhhoang.hashnode.dev/dummy-models-for-dummies

1.98K views09:46

Data Analysis / Big Data

Day 5/100

Delta Lake [Part 3] -
Delta table Streaming
Delta Lake is deeply integrated with Spark Structured Streaming through readStream and writeStream along with following features,

Coalesce small files
Maintains Exactly-once processing
Discovering new file...

Read: https://rawdatareaders.hashnode.dev/day-5100

1.83K views19:29

Data Analysis / Big Data

KNN from scratch VS sklearn

Welcome👋,
In this article, we are going to build our own KNN algorithm from scratch and apply it to 23 different feature data set using Numpy and Pandas libraries.
First, let us get some idea about the KNN or K Nearest Neighbour algorithm.
What is t...

Read: https://dipankarmedhi.hashnode.dev/knn-from-scratch-vs-sklearn

1.91K views04:16

Data Analysis / Big Data

Нейросетевой подход к моделированию транзакций расчетного счета

Естественным источником информации в банке о покупках клиента являются карточные транзакции – любые операции, проводимые по дебетовым или кредитным картам. При этом денежные операции клиента не ограничиваются транзакциями, проводимыми с помощью карт. Оплата ЖКХ, оплата образования, крупные покупки и другие денежные переводы – это примеры транзакций, которые никак не привязаны к карте клиента, но при этом они ассоциируются с другой банковской сущностью – расчетным счетом.

Про то, как мы в Альфа-Банке применяем карточные транзакции в моделировании, мы уже рассказывали в этом посте. Логичным развитием идеи использования карточной транзакционной истории клиента является использование данных, которые содержатся в клиентской истории транзакций расчетного счета.

Читать: https://habr.com/ru/post/657577/

👍2

1.8K views11:49

Data Analysis / Big Data

Starting as a Junior Data Analyst... at 40?

Hell yeah I'm excited, I landed my first opportunity for a job as a Data Analyst!
Well, it's not guaranteed yet. I'm not celebrating something I don't have, just the opportunity because, that's enough reason to celebrate! However, no matter how this ...

Read: https://franciscorua.hashnode.dev/starting-as-a-junior-data-analyst-at-40

1.77K views14:57

Data Analysis / Big Data

Подсчет количества пар товаров в продуктовых чеках с помощью трех инструментов: Python, Spark, SQL

Добрый день, уважаемые читатели! Не открою для большинства секрета, если скажу, что большая часть задач в материалах к учебным курсам сформулирована шаблонно. Какие-то вопросы в принципе могут представлять интерес, но очень оторваны от реальных потребностей бизнеса. Какие-то моменты выдернуты из книг, поэтому лучше знакомиться с ними, читая первоисточник. Но есть кейсы, которые на первый взгляд хоть и кажутся простыми и стереотипными, но, если присмотреться к ним более пристально, могут дать пищу для размышления. Вот на одной из таких полезных задач мне хотелось бы заострить внимание в данной заметке. Формулируется вопрос следующим образом: «Необходимо определить количество пар товаров в продуктовых чеках. Вывести 10 самых частых сочетаний». Пример, чек 1 содержит товар 1, товар 2, товар 3, а чек 2 - товар 1, товар 2, товар 5. Следовательно, комбинация «товар 1, товар 2» встречается 2 раза, «товар 1 , товар 3» один раз и т.д.

В исходнике решать данный кейс предлагалось силами Python. Но реальная жизнь может потребовать от аналитика данных умения выполнять данное упражнение как с помощью SQL, так и Spark. Следовательно, рассмотрим три подхода, оставив за скобками разговора четвертый вариант – расчеты на платформах BI.

Читать: https://habr.com/ru/post/657623/

1.9K views06:40

Data Analysis / Big Data

[recovery mode] Low Cost Engineering как метод бережливого производства в технологическом стартапе

Тот, кто не готов внедрять новые решения, достаточно скептично относится к такой формулировке как Low Cost Engineering, считая, что создание прототипа – это огромные затраты. Опытные же инженеры все чаще используют данную концепцию как один из инструментов бережливого производства.

Читать: https://habr.com/ru/post/657627/

🔥1

1.8K views07:45

Data Analysis / Big Data

Data Engineering Weekly #80

Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-80

1.45K views01:00

Data Analysis / Big Data

Причина и следствие

Мы привыкли, что Machine Learning предоставляет нам большое количество предиктивных методов, которые с каждым годом предсказывают события лучше и лучше. Деревья, леса, бустинги, нейронные сети, обучение с подкреплением и другие алгоритмы машинного обучения позволяют предвидеть будущее все более отчетливо. Казалось бы, что нужно еще? Просто улучшать методы и тогда мы рано или поздно будем жить в будущем так же спокойно, как и в настоящем. Однако не все так просто.

Когда мы рассматриваем бизнес задачи, мы часто сталкиваемся с двумя моментами. Во-первых, мы хотим понять что к чему относится и что с чем связано. Нам важна интерпретация. Чем сложнее модели мы используем, тем более нелинейные они. Тем больше они похожи на черную коробку, в которой очень сложно выявить связи, понятные человеческому разуму. Все же мы привыкли мыслить довольно линейно или близко к тому. Во-вторых, мы хотим понять - если мы подергаем вот эту "ручку", изменится ли результат в будущем и насколько? То есть, мы хотим увидеть причинно-следственную связь между нашим целевым событием и некоторым фактором. Как сказал Рубин - без манипуляции нет причинно следственной связи. Мы часто ошибочно принимаем обыкновенную корреляцию за эту связь. В этой серии статей мы сконцентрируемся на причинах и следствиях.

Но что не так с привычными нам методами ML? Мы строим модель, а значит, предсказывая значение целевого события мы можем менять значение одного из факторов - одной из фич и тогда мы получим соответствующее изменение таргета. Вот нам и предсказание. Все не так просто. По конструкции, большинство ML методов отлично выявляют корреляцию между признаком и таргетом, но ничего не говорят о том, произошло ли изменение целевого события именно из-за изменения значения фичи. То есть, ничего не говорят нам о том - что здесь было причиной, а что следствием.

Читать: https://habr.com/ru/post/657747/

1.43K views08:47

Data Analysis / Big Data

Scrape all Naver Video Results using pagination in Python

What will be scraped
Prerequisites
Full Code
Links
Outro

What will be scraped

Title, link, thumbnail, origin, views, date published, channel from all results.

📌Note: Naver Search does not provide more than 600 video search results for the b...

Read: https://serpapi.hashnode.dev/scrape-all-naver-video-results-using-pagination-in-python

1.34K views10:12

Data Analysis / Big Data

Оптимальный маршрут доставки, скидки от срока годности и подбор одежды онлайн: 3 примера машинного обучения в e-com

Чем больше у компании клиентов, тем выше объем полезных данных, на которых аналитики могут обучить предсказательные модели. Поэтому для развития логистических алгоритмов особый интерес представляют научные публикации исследователей из крупных азиатских, европейских и американских компаний.

Дата-сайентист из команды СберМаркета Дмитрий Руденко рассмотрел три научных статьи, посвященных применению машинного обучения для доставки товаров в международной компании Zalando и в двух китайских компаниях Meituan и Alibaba.

Читать: https://habr.com/ru/post/654869/

👍1

1.32K views14:01

Data Analysis / Big Data

Launching The Data Founder Story Edition

Read: https://www.dataengineeringweekly.com/p/launching-the-data-founder-story

1.24K views21:30

Data Analysis / Big Data

Как работать со смещениями онлайн-панелей: методы и ML-алгоритмы коррекции

Если вы проводите панельные исследования, то обязательно столкнетесь с одним из главных вызовов – набрать выборку достаточного размера, которая будет достоверно отражать важные для исследования параметры генеральной совокупности. Набрать большую и качественную, а значит несмещенную выборку с применением оффлайн-рекрутмента дорого и проблематично. Однако существует альтернативный вариант – это онлайн-рекрутмент, который давно зарекомендовал себя как максимально быстрый, простой и дешевый способ привлечь респондентов для различных исследований. В то же время выборки, набранные в интернете, являются неслучайными и, как правило, искажены по ряду параметров, даже если процедура рекрутирования была хорошо спланирована. В этой статье мы расскажем о методе Propensity Score Adjustment, который применили для коррекции смещений и улучшения данных, полученных на онлайн-панелях. Этот алгоритм помогает калибровать (уточнять) вклад респондентов, набранных в панель онлайн.
Читать

Читать: https://habr.com/ru/post/657813/

1.17K views09:48

Data Analysis / Big Data

Применение Propensity Score Adjustment для коррекции смещений в онлайн-панелях

Это вторая часть нашего рассказа о работе со смещениями оценок медиа активности респондентов онлайн-панелей. В предыдущей статье мы разобрали саму проблему, причины возникновения смещений и способы их коррекции, а теперь более подробно остановимся на практическом применении алгоритма Propensity Score Adjustment для коррекции реальных онлайн-данных.
Читать

Читать: https://habr.com/ru/post/657827/

1.11K views09:52

Data Analysis / Big Data

Ускорение семантической сегментации при помощи машинного обучения

Зачем создавать процесс разметки данных на основе ML?

Быстрое создание высококачественной разметки данных — сложная задача. Парсинг и правильное аннотирование изображений и видео, обычно используемых в сфере беспилотного транспорта или робототехники, могут быть композиционно сложны даже для людей. Наша компания использует машинное обучение, чтобы дополнить реализуемые людьми рабочие процессы, позволяя повысить и качество, и скорость разметки. Так как модели глубокого обучения могут испытывать трудности с устойчивой производительностью в предметных областях с большим разнообразием данных, например, в сценах с участием беспилотных автомобилей, для обеспечения стабильно высокого качества необходимо найти оптимальный баланс между ML-автоматизацией и человеческим контролем.

Читать: https://habr.com/ru/post/655227/

👍1

1.18K views09:52

Data Analysis / Big Data

Orchestrating Data Pipelines at Lyft: Comparing Flyte and Airflow

This article was originally published on the Lyft Engineering blog on March 25th, 2022.
Introduction
In a data-driven company like Lyft, data is the core backbone for many application components. Data analytics gives us the incentives for improving e...

Read: https://blog.flyte.org/orchestrating-data-pipelines-at-lyft-comparing-flyte-and-airflow

👍2

1.15K views11:13

Data Analysis / Big Data

Analysing American Baby Name Trends with Python

Introduction to EDA
Exploratory data analysis (or EDA) is a way to analyse data sets in order to summarize or to know about their main characteristics, often by analysing trends and through graphics and other data visualisation methods.
We try to fin...

Read: https://rishav10.hashnode.dev/analysing-american-baby-name-trends-with-python

1.15K views15:03

Data Analysis / Big Data

Up to 15 times improvement in Hive write performance with the Amazon EMR Hive zero-rename feature

Read: https://aws.amazon.com/blogs/big-data/up-to-15-times-improvement-in-hive-write-performance-with-the-amazon-emr-hive-zero-rename-feature/

1.1K views22:27

Data Analysis / Big Data

JavaScript редактор диаграмм, который открывает диаграммы из PNG картинок (open source)

dgrm.net | GitHub

dgrm.net - это редактор диаграмм, с прицелом на трансформацию в карту знаний.

Отличительные особенности:
- аскетичность,
- работает на телефонах (одно из немногих web-решений),
- открытый исходный код.

В процессе разработки появляются интересные моменты. Статья про один из таких моментов: чтение данных из PNG.
Исходный код для использования в своих проектах прилагается.

Читать: https://habr.com/ru/post/658109/

1.11K views06:36

About

Blog

Apps

Platform