Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.81K subscribers
570 photos
3 videos
2 files
2.93K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Big Data и логистика: чем большие данные полезны участникам отрасли

Привет, Хабр! Мы – сервис для оптимизации внутригородской логистики Relog. Наш продукт целиком построен вокруг аналитики. И сегодня мы расскажем пользователям Habr, какие возможности для логистических компаний открывает Big Data.

Для начала несколько слов об анатомии TMS Relog. Это комплекс ПО, который отвечает за полную систематизацию данных логистической компании с высокой частотой обновления. В этом участвуют два ключевых механизма: валидация данных и автоматизация процессов по доставке последней мили.

Информация о статусе заказов мгновенно поступает из ERP-систем клиента в аналитическую систему Relog BI. Мы построили свой продукт на базе решения Microsoft Power BI (которое, к слову, продолжает работать на территории России без сбоев). Также мы интегрировали решения, связанные с сенсус-аналитикой и геоаналитикой. Пространственный анализ позволил расширить возможности системы.


Читать: https://habr.com/ru/post/663470/
Decision Intelligence Framework — Принятие решений на основе данных

Какое место в организации занимает Decision Intelligence? Как вы принимаете решения на основе данных? Что делать если вы хотите принимать решения на основе данных, но не знаете с чего начать?

В своем дебютном посте на Towards Data Science Эрик Балодис излагает новую концепцию, которая выходит за рамки традиционного подхода к принятию решений на данных, и направлена на то, чтобы дать представление о том, какие процессы лежат в основе концепции Decision Intelligence.

Читать по диагонали - 5 минут, читать вдумчиво - 15 минут.


Читать: https://habr.com/ru/post/666874/
Habr: Как поменялось шифрование: от спартанского скитейла до смартфонов и компьютеров

Человечество на протяжении тысячелетий стремилось сохранить приватность своих личных данных или засекретить особенно важную информацию: будь то военные тайны или пароли к персональным аккаунтам. Но задолго до современной криптографии, существовали механические устройства вроде цилиндров да Винчи или шифровальные машины, подобные «Энигме».


Читать: https://habr.com/ru/post/666844/
Explore data with filters (Part 2)

Filters are a powerful interaction paradigm for users to explore data and perform analysis. Filters enable users to get from data to insights, to reduce noise in the data, and to slice and dice data by different dimensions. This article highlights filter capabilities in Oracle Analytics.

Read: https://blogs.oracle.com/analytics/post/explore-data-with-filters-part-2
Как мы классифицировали товары при разработке СDP-платформы

Привет, хабр!

Меня зовут Марк Порошин вместе с моим коллегой Артемом Шнайдером в DV Group мы занимаемся Data Science. Сейчас мы активно развиваем собственную платформу клиентских данных (CDP) DV Platform. Коротко расскажу, зачем вообще она нужна. Платформа обрабатывает данные из маркетплейсов и позволяет создавать и передавать сегменты пользователей, которые с наибольшей вероятностью совершат покупки конкретной категории или товара. Это позволяет оптимизировать маркетинговые бюджеты и увеличивать онлайн-продажи брендов.


Читать: https://habr.com/ru/post/667474/
Как аудиобейджи помогают повышать качество обслуживания клиентов

Привет!

В этом посте мы расскажем про аудиобейджи и их роль в налаживании коммуникации между сотрудником магазина и покупателями. Мы проводили этот пилот совместно с VocaTech и одним крупным ритейлером электроники: выбрали 15 магазинов, раздали 355 сотрудникам аудиобейджи, а затем проанализировали результаты и новые уровни продаж.

За 6 месяцев пилота в 15 магазинах у 355 сотрудников мы получили 66 243 часов аудиозаписей, которые были переведены системой VocaTech в 321 353 эпизода обслуживания (транскрипции речи сотрудника во время консультаций). Параметры анализа речи — 70 метрик, включающие более 1000 уникальных фраз и их вариаций (метрика здесь — стандарт речи, например, стандарт речи «Приветствие» фиксируется фразами «Доброе утро», «Добрый день» или «Добрый вечер»).

Спойлер: при всех ключевых словах и улучшенных скриптах для продавцов личная харизма конкретного специалиста всё ещё продолжает играть значительную роль.


Читать: https://habr.com/ru/post/667486/
👍1
Интерпретируемость в машинном обучении: итоги 2021 г

В 2021-2022 годах уже ни для кого не секрет, что понимать логику работы моделей машинного обучения важно и нужно. Иначе можно насобирать множество проблем: от того, что модель не будет принята конечным пользователем, потому что непонятна, до того, что она будет работать неправильно, а поймем мы это уже слишком поздно.

Для интерпретируемости в машинном обучении устоялись термины Interpretable ML и Explainable AI (XAI). Объединяет их одно - стремление сделать модели машинного обучения понятными для конечного пользователя.

Под катом поговорим о том, что интересного произошло в интерпретируемости в 2021 г.


Читать: https://habr.com/ru/post/667492/
👍1
Что под капотом у Умного Ташкента?

Привет, Хабр! Вот, прошли майские праздники, и я готов поделиться с вами подробностями нашего проекта по цифровизации Ташкента. В конце концов, наша референсная модель может помочь в цифровизации других городов. И в этом посте мы подробнее разберем вопросы интеграции между различными компонентами, механику взаимодействия с Visiology BI и Геоинтеллект, а также ряд интересных на мой взгляд технических вопросов. Я покажу, как в нашей системе реализована поддержка процессов укладки асфальта, аналитики по видео, загрузки огромных массивов данных из различных ведомств.


Читать: https://habr.com/ru/post/667450/
👍2
Что такое Brain2Logic: Data Science без кода для юниоров

Современное машинное обучение не только перенимает крутые математические методы, но и подстраивается под стремление человека автоматизировать управление процессами. Природа явления остаётся загадкой. То ли мы добиваемся лаконичности, то ли убиваемся собственной ленью — неважно, если результат оправдывает затраты.

Одним из таких результатов стала AutoML-платорма Brain2Logic стартапа Mavericka, которая недавно была пропилотирована в песочнице Ассоциации больших данных. Платформу помог протестировать Билайн, поставив задачу построить модели для рекомендаций фильмов. В этой статье представлен общий взгляд на современные AutoML-решения с акцентом на проект Brain2Logic (B2L).

Если вам интересно, что смогли придумать в Mavericka, посмотреть на тестирование и почитать наши рассуждения про AutoML — добро пожаловать под кат.


Читать: https://habr.com/ru/post/667788/
Объединение данных с датчиков и интерполяция для Autonomous Vehicles

Товарищи, рассказываю о нюансах сбора и работы с данными для Autonomous Vehicles. Как правило, для создания обучающего датасета используют данные с датчиков LIDAR и камер. Но полученные данные в сыром виде очень разрознены ,и чтобы решить эту проблему, их нужно правильно объединить и интерполировать. И только после этого приступать к 3D Point Cloud разметке.


Читать: https://habr.com/ru/post/667842/
Зачем бизнесу data science

Встретились как-то продакт с дата-сайентистом в одном офисе и стали выяснять, кто для бизнеса нужнее. Об этом в нашем видеоблоге вышел огромный выпуск, который я решил переделать в статью. Если интересно послушать полный диалог со всеми подробностями – добро пожаловать.

Всем привет! Меня зовут Игорь Уткин, я – дата-сайентист в hh.ru.  В этой статье разбираемся: когда компании может понадобиться дата-сайентист, имеет ли собранная модель право на ошибку и как вообще люди уходят в data science.


Читать: https://habr.com/ru/post/667856/
👍2
Setting up a local development environment for python data projects using Docker

Read: https://www.startdataengineering.com/post/local-dev/
Preview of Semantic Modeler in Oracle Analytics Cloud

Oracle analytics has a seasoned, rich Semantic Model which has been used by thousands of analytics customers over the past two decades. Today, I'm excited to share with you the next generation modeling tool and a modeling language to create those semantic models.

Read: https://blogs.oracle.com/analytics/post/preview-of-semantic-modeler-in-oracle-analytics-cloud
«Ваша сезонность, сэр!»: ищем тренд и прогнозируем спрос с помощью временных рядов, SARIMA и Python. Ч.1

Как вы можете помнить по первой статье "Маркетинговая аналитика на Python. Пишем код для RFM-сегментации", более 8 лет я работаю в сфере маркетинга для B2B и примерно столько же бешусь от дилетантского подхода к аналитике, который тянет за собой ряд проблем с определением ключевых метрик эффективности для компании (и, как следствие, с мотивацией сотрудников):


Читать: https://habr.com/ru/post/668186/