Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.82K subscribers
570 photos
3 videos
2 files
2.92K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
FAW–Cross Functional Subject Area Analysis & 'explain' metrics on the combined dataset

The following document describes steps, how a FAW analytics user can go about doing a cross Subject Area between two or more subject areas and also use OAC pre-built explain functionality on all the measures available on cross-subject Areas.

Read: https://blogs.oracle.com/analytics/post/cf-sa
👍2
Нейросетевой подход к кредитному скорингу на данных кредитных историй

В Альфа-Банке естественным образом накапливаются разнообразные последовательные данные: истории транзакций клиентов, кредитные истории, истории коммуникаций. Одно из двух направлений Лаборатории машинного обучения Альфа-Банка занимается построением нейросетевых моделей на таких данных для решения разных задач. Одна из них — задача кредитного скоринга. Любой прирост в качестве скоринга платежеспособности клиентов на входе может быстро принести большой прирост в прибыли на выходе за счет увеличения числа выдач при неизменном риске.

Мы уже рассказывали о построении моделей на последовательностях карточных транзакций и транзакций расчетного счета для решения задачи кредитного скоринга. В обоих случаях вместо классических подходов – логистической регрессии и градиентного бустинга – использовались настоящие «черные ящики»: рекуррентные нейронные сети. Теперь же мы хотим рассказать о применении этого неклассического подхода на другом источнике данных – кредитных историях.

Появление модели на данных КИ стало переломной точкой, когда совокупный вес нейронок на последовательных данных при принятии решений превысил вес бустинговой модели на табличных данных. В этой статье мы опустим некоторые технические детали, о которых уже рассказывали в предыдущих. Вместо этого расскажем, как звучала постановка задачи, какие данные использовали, какие применяли модели, с какими сложностями столкнулись и как с ними справились. От этого рассказ, может быть, станет чуть менее техническим, но при этом не менее интересным.


Читать: https://habr.com/ru/post/680346/
👍3
11 августа состоится Alfa Data Science MeetUp в стиле кибер-футуризма

Если вы в Москве, регистрируйтесь на сайте и приезжайте в офис Альфа-Банка по адресу: проспект Андропова 18, корп. 6. Также есть возможность подключиться к онлайн трансляции.

Темы и спикеры:
— Развитие клиентской базы: моделирование LTV и прогноз будущих доходов. Спикер: Сергей Королёв, Middle Data Scientist Альфа-Банк.
— Uplift-моделирование в ценообразовании кредитных продуктов. Спикер: Максим Коматовский, Junior Data Scientist Альфа-Банк.
— Совершенный код расчёт. Спикер: Максим Cтаценко, Team Lead/Senior DWH Developer в Яндекс.
— Побеждаем смещение распределения в задаче нейросетевого кредитного скоринга. Спикер: Алексей Фирстов, Senior Data Scientist Альфа-Банк.

Мероприятие пройдет в необычном формате. У вас будет время вспомнить «Бегущего по лезвию» или «Cyberpunk 2077», вдохновиться, поучаствовать в конкурсе и получить призы за креативность.

Регистрируйтесь на сайте, приходите в гости, будет интересно!

#ивент
👍3
Машинное обучение как новая революция

Интеллектуальные алгоритмы машинного обучения уже умеют распознавать голос и изображения, занимаются аналитикой бизнес-процессов и используются в решении массы других задач.

Их внедрение позволило не просто облегчить процесс программирования, но и совершило настоящую революцию во многих отраслях человеческой деятельности. Сегодня предлагаем обсудить, что представляет собой машинное обучение и его алгоритмы и как заставить технику выполнять обязанности людей.


Читать: https://habr.com/ru/post/680436/
🥰3
Develop an Amazon Redshift ETL serverless framework using RSQL, AWS Batch, and AWS Step Functions

Read: https://aws.amazon.com/blogs/big-data/develop-an-amazon-redshift-etl-serverless-framework-using-rsql-aws-batch-and-aws-step-functions/
👍2
Feature Engineering или стероиды для ML моделей



Привет, чемпион!

Часто при построении ML моделей мало просто взять сильную модель. Оказывается, иногда грамотная предобработка данных существенно важнее. Речь пойдем про feature engineering.

Рассмотрим несколько кейсов на эту тему более подробно. Данные будут упрощённые, но обещаю, от этого примеры не станут менее интересными 😉.


Читать: https://habr.com/ru/post/680498/
🥰2
Ускоряем кластеризацию больших векторов, анализируя страны Центральной Азии

Любите ли вы задачи кластеризации? Лично я — да. Они хорошо поддаются визуализации, понятны людям, далеким от математики, и зачастую оказывают быстрое влияние на бизнес процессы. Однако, при решении задач кластеризации мы можем столкнуться с рядом проблем. Среди которых может быть:

— большая размерность вектора признаков,
— отсутствие данных на подмножестве фичей,
— зашумленность значений / выбросы и т.д.

В случае, если количество объектов небольшое (и увеличить их естественным образом невозможно), то при неблагоприятном стечении обстоятельств мы можем столкнуться с серьезными проблемами в качестве нашей кластеризации.

Но если количество объектов достаточно большое, возникают вычислительные проблемы, такие как: нехватка ресурсов, скорость выполнения и т.д.


Читать: https://habr.com/ru/post/680724/
👍3
Best practices to optimize cost and performance for AWS Glue streaming ETL jobs

Read: https://aws.amazon.com/blogs/big-data/best-practices-to-optimize-cost-and-performance-for-aws-glue-streaming-etl-jobs/
👍2
Unleashing the power of Oracle Fusion Cloud Applications with Fusion Analytics

Can you get insight into your Oracle Fusion data? How can Oracle Fusion Analytics help? How does the pre-built and out-of-the-box content accelerate discovery? In this article we will explore the answers to these questions and more.

Read: https://blogs.oracle.com/analytics/post/unleashing-the-power-of-oracle-fusion-applications-with-fusion-analytics
👍2
SDS vs традиционные СХД: почему мы редко применяем программно-определяемые хранилища?

Хранение данных — непростая задача, особенно когда к ним нужно обеспечить бесперебойный доступ. И сегодня мне хотелось бы поговорить о гиперконвергентных системах и связанных с ними программно-определяемых хранилищах, позволяющих использовать накопители в стандартных серверах х86 из того же кластера, что и вычислительные узлы. Чтобы не разводить холивара, сразу скажу, что в этом посте не будет глубокого технического разбора той или иной системы. Мы поговорим об архитектуре и особенностях ее применения в ЦОДе.

Итак, используем ли мы гиперконвергенцию в ЦОД Oxygen? Да, конечно. Будем ли мы рекомендовать ее для широкого спектра задач? Нет, не будем. Почему — подробнее разбираемся под катом.
Узнать, кто победил в неравном бою

Читать: https://habr.com/ru/post/680782/
👍2
Рецепт готовки Apache Kafka: как создавался Data Lake на 80 Тb

Kafka позволит вам грамотно организовать работу с большим массивом данных, но в процессе может подкинуть проблем. Иногда придется устроить танцы с бубном, чтобы программа продолжила работать, а не рухнула в момент запуска.

О не очень стандартном использовании Apache Kafka и лайфхаках по созданию Data Lake на его основе нам рассказал Михаил Кобик, директор департамента инфраструктурных решений в SMART Technologies SOFT. В 2017 году перед командой Михаила встала непростая задачка - создать хранилище данных на 80 Tb. В распоряжении был спек, примерные нагрузки и абсолютное непонимание, что с этим делать со стороны заказчика.


Читать: https://habr.com/ru/post/681070/
👍3
Design patterns to manage Amazon EMR on EKS workloads for Apache Spark

Read: https://aws.amazon.com/blogs/big-data/design-patterns-to-manage-amazon-emr-on-eks-workloads-for-apache-spark/
👍2
FAW - Extensibility with data from Fusion via Data Aug & Semantic Modelling

Oracle Fusion Analytics Warehouse (FAW) caters to most prominent use cases on analytics for underlying Fusion source . There are times when this is insufficient for detailed operation reporting needs .This is an easily achievable objective, we have published a case study FAW - Extensibility using Custom PVO via Data Aug & Semantic Modelling

Read: https://blogs.oracle.com/analytics/post/faw---extensibility-with-data-from-fusion-via-data-aug-semantic-modelling
👍3
Как работают А/В-тесты на примере онлайн-кинотеатра KION

A/B тесты — это простой способ проверить идею и её влияние на метрики продукта. В этой статье на примере фичи Autoplay Александр Труфанов, Руководитель направления Продуктовой аналитики МТС Медиа/KION, разбирается в том, как проводится A/B-тестирование:

https://tprg.ru/YkjF
👍4
Как продажа виниловых пластинок сделала из режиссёра монтажа аналитика данных

Рассказываем, как вдохновиться на переход в новую профессию во взрослом возрасте и не бросить всё на полпути.

Читать: «Как продажа виниловых пластинок сделала из режиссёра монтажа аналитика данных»
👍4
Forwood Safety uses Amazon QuickSight Q to extend life-saving safety analytics to larger audiences

Read: https://aws.amazon.com/blogs/big-data/forwood-safety-uses-amazon-quicksight-q-to-extend-life-saving-safety-analytics-to-larger-audiences/
👍3
Fusion Analytics Warehouse –Salesforce Data Extraction using OAC Dataflows

Salesforce is a leading CRM software application with a wide customer base, Hence often Oracle FAW customers like to compliment the analytical capabilities provided by Oracle Fusion cloud data with the custom data sourced from Salesforce.com ( Commonly referred to as SFDC).

Read: https://blogs.oracle.com/analytics/post/oac-salesforce-datamodel
🤮2
#1 Нейронные сети для начинающих. Решение задачи классификации Ирисов Фишера



На хабре было множество публикаций по данной теме, но все они говорят о разных вещах. Решил собрать всё в одну кучку и рассказать людям.

Это первая статья серии введения в нейронные сети, «Нейронные сети для начинающих». Здесь и далее мы постараемся разобраться с таким понятием — как нейронные сети, что они вообще из себя представляют и как с ними «подружиться», на практике решая простые задачи.


Читать: https://habr.com/ru/post/679988/
👍1👎1