Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.82K subscribers
570 photos
3 videos
2 files
2.92K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
New row and column interactivity options for tables and pivot tables in Amazon QuickSight – Part 1

Read: https://aws.amazon.com/blogs/big-data/part-1-new-row-and-column-interactivity-options-for-tables-and-pivot-tables-in-amazon-quicksight/
👍1
Четыре функции для быстрой работы с Big Data

Я часто пользуюсь функциями для работы с большими данными. Они позволяют упросить и ускорить работу. Некоторые я нашел на просторах интернета, другие написал сам. Сегодня хочу поделиться четырьмя из них, может кому-то будет полезно.


Читать: https://habr.com/ru/post/682694/
1
Set up federated access to Amazon Athena for Microsoft AD FS users using AWS Lake Formation and a JDBC client

Read: https://aws.amazon.com/blogs/big-data/set-up-federated-access-to-amazon-athena-for-microsoft-ad-fs-users-using-aws-lake-formation-and-a-jdbc-client/
👍1
В чём различия между Data Science, машинным обучением, ИИ, глубоким обучением и Data Mining

Данные становятся движущей силой современного мира, поэтому почти каждый уже сталкивался с такими терминами, как data science, «машинное обучение», «искусственный интеллект», «глубокое обучение» и data mining. Но что же обозначают эти понятия? Какие различия и связи между ними существуют?

Все перечисленные выше термины, несмотря на их взаимосвязь, нельзя использовать в качестве синонимов. Эта статья поможет вам не только понять, какие исследования и опыт позволяют извлекать знания из данных, чтобы делать машины умнее, но и как конкретно это происходит.


Читать: https://habr.com/ru/post/682932/
👍1
Как работает видеоаналитика Билайн

Вся видеоаналитика строится на основе видеонаблюдения.

Видеонаблюдение - передача видеоизображения, а аналитика - его обработка и создание некоторых автоматизированных выводов по определенному алгоритму. Если раньше стояли большие аналоговые камеры, все записи с которых шли на сервер и на пульт условного охранника, который должен был следить за всем, то сейчас все идет к установке IP-камер и хранения всех записей в облаке, что мы и предлагаем.


Читать: https://habr.com/ru/post/683586/
Introducing Schemata - A Decentralized Schema Modeling Framework For Modern Data Stack

Read: https://www.dataengineeringweekly.com/p/introducing-schemata-a-decentralized
🔥1
Улучшаем производительность: виртуальный рендеринг для больших объемов данных

К вам пришло из API что-то огромное, браузер начал тормозить, а пользователи недовольны? Как с этим справиться? Когда и в каких UI компонентах с проблемой отображения большого массива данных сталкиваются разработчики? Какие специальные подходы применять или не применять?

Меня зовут Сергей Клинов. Я старший frontend-разработчик в компании Datafold. Моя специализация — это TypeScript, React, визуализация данных, формы, повышение производительности. Поговорим о решении проблем, с которыми уже столкнулся, либо в ближайшее время точно столкнется каждый фронтенд-разработчик. Рассмотрим несколько возможных решений, их преимущества и ограничения. Принцип и устройство виртуального рендеринга и разберем рабочий пример его применения на продукте Datafold.


Читать: https://habr.com/ru/post/678202/
How Fannie Mae built a data mesh architecture to enable self-service using Amazon Redshift data sharing

Read: https://aws.amazon.com/blogs/big-data/how-fannie-mae-built-a-data-mesh-architecture-to-enable-self-service-using-amazon-redshift-data-sharing/
Параллельные вычисления в Apache Spark

Всем привет!

Иногда кажется, что для решения проблемы недостаточно простого выполнения расчётов в Spark и хочется более эффективно использовать доступные ресурсы. Меня зовут Илья Панов, я инженер данных в одном из продуктов X5 Tech, и хочу поделиться некоторыми подходами параллельных вычислений в Apache Spark.


Читать: https://habr.com/ru/post/684024/
Removing complexity to improve business performance: How Bridgewater Associates built a scalable, secure, Spark-based research service on AWS

Read: https://aws.amazon.com/blogs/big-data/removing-complexity-to-improve-business-performance-how-bridgewater-associates-built-a-scalable-secure-spark-based-research-service-on-aws/
How Fresenius Medical Care aims to save dialysis patient lives using real-time predictive analytics on AWS

Read: https://aws.amazon.com/blogs/big-data/how-fresenius-medical-care-aims-to-save-dialysis-patient-lives-using-real-time-predictive-analytics-on-aws/
Как организовать потоковую обработку данных. Часть 1

Привет, Хабр! Меня зовут Евгений Ненахов, я работаю в центре Big Data МТС Digital. В этой статье я расскажу о том, как мы создали универсальный инструмент потоковой обработки данных и построили с его помощью мощную систему стриминга. Если вам интересна обработка данных – добро пожаловать под кат!


Читать: https://habr.com/ru/post/684476/
New Powered by QuickSight program helps AWS partners embed interactive analytics in applications to enable data-driven experiences

Read: https://aws.amazon.com/blogs/big-data/new-powered-by-quicksight-program-helps-aws-partners-embed-interactive-analytics-in-applications-to-enable-data-driven-experiences/
От сбора до использования: как повысить Data Quality на всех этапах работы с данными

Представьте, что у вас только что появилось классное озеро данных с прикольными пайплайнами, которые собирают данные со всей компании. А теперь представьте свой шок, когда команды бизнес-специалистов поймут, что в озере данных — не данные, а мусор.

Команда VK Cloud перевела статью о том, как следить за данными на каждом этапе и повысить их качество для грамотного использования.


Читать: https://habr.com/ru/post/684118/
👍2
Как и зачем мы начали искать бизнес-инсайты в отзывах клиентов с помощью машинного обучения

Естественный источник обратной связи для любой компании — отзывы их клиентов. И Альфа-Банк не исключение: за год мы собираем больше 100 млн оценок по различным каналам и продуктам. Но среди этих оценок очень мало содержательных текстовых комментариев, а самый популярных среди них (за 2021 год) — «Вопрос не решен!»

Чтобы решить эту проблему, Альфа-Банк собирает дополнительно до 500 тысяч отзывов в год. Этим занимается команда по сохранению лояльности клиентов: обзванивает клиентов, которые поставили негативную оценку, подробно их опрашивает, и старается решить проблему клиента на звонке, формируя свой экспертный отзыв.

Накапливаемые данные практически невозможно анализировать в ручном режиме в полном объеме, но можно сократить объем труда за счет машинного обучения. О том, как мы помогли оптимизировать процесс вычитки с помощью суммаризации на основе тематических моделей и будет эта статья.


Читать: https://habr.com/ru/post/684774/
👍2
Как в Tele2 модель научилась разбирать 230 тысяч клиентских обращений

Привет! Меня зовут Катя и я отвечаю за PR проектного офиса big data в Tele2. Не спешите переключаться после этих слов: я постаралась разобраться в том, как коллеги разработали инструмент для анализа обратной связи от абонентов.

В компании есть показатель NPS bottom Up, в рамках исследования мы задаем пользователю вопросы конкретно по точке контакта, например, о мобильном интернете. Упрощенно, методика исследования такая: человек отвечает на закрытые вопросы об услуге и может заполнить поле “свободный комментарий”. В последнем пункте и содержится всё самое интересное, но неподъемное для анализа ручками.


Читать: https://habr.com/ru/post/684800/