Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.82K subscribers
570 photos
3 videos
2 files
2.92K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Common streaming data enrichment patterns in Amazon Kinesis Data Analytics for Apache Flink

Read: https://aws.amazon.com/blogs/big-data/common-streaming-data-enrichment-patterns-in-amazon-kinesis-data-analytics-for-apache-flink/
Ingest streaming data to Apache Hudi tables using AWS Glue and Apache Hudi DeltaStreamer

Read: https://aws.amazon.com/blogs/big-data/ingest-streaming-data-to-apache-hudi-tables-using-aws-glue-and-apache-hudi-deltastreamer/
Как мы доработали чат-бота «Дану» и сделали её проницательнее и сообразительнее

Привет! Меня зовут Даир, я Data Scientist. Эту статью мы писали вместе с Санжаром, моим коллегой, который тоже занимался проектом. Мы расскажем, как научили понимать любые клиентские запросы уже разработанным ранее в Beeline чат-бота.

Фраза «понимание клиента» для нас значит следующее: клиент пишет текстовый запрос с описанием своей проблемы, если чат-бот может уловить суть проблемы, ее тематику и намерение, мы считаем, что мы справились со своей задачей. Намерение клиента в текстовом запросе мы называем «интент» (intent).
Улучшаем чат-бот

Читать: https://habr.com/ru/post/691996/
Evidently или как пасти модели в проде

Evidently это библиотека, которая помогает анализировать и отслеживать качество данных и качество моделей машинного обучения в процессе их эксплуатации.

Рассмотрим как ее установить и использовать.


Читать: https://habr.com/ru/post/692272/
Tableau — динамический фильтр TOP N

Всем привет!

На работы стояла такая задача - вывести количество запросов в поддержку за день с разбивкой по версии приложения.

Казалось бы легкая задача! Но оказалось, что количество версий приложений несколько десятков и на графике это может выглядеть ужасно.

Поэтому появилась мысль, а можно ли выводить, например 10 версий с самым большим количеством запросов, а при необходимости «развернуть» график.

К сожалению, данный фунционал не представлен явным образом в Tableau, поэтому пришлось поресерчить и вот что из этого получилось.


Читать: https://habr.com/ru/post/692294/
Мониторинг в Apache NiFi. Часть первая

Apache NiFi динамично развивается и на сегодняшний день обладает достаточно большим набором возможностей, позволяющим отслеживать состояние потоков данных, ошибки и предупреждения, возникающие в процессорах и на кластере, а также состояние кластера.

Первая статья посвящена мониторингу потоков данных с помощью инструмента GUI NiFi. В последующих материалах мы рассмотрим задачи отчетности, опишем примеры сбора метрик и визуализации при помощи таких популярных систем, как Prometheus и Grafana.


Читать: https://habr.com/ru/post/692154/
Подводные камни Spark: что делать с перезаписью и дополнением в таблицах

Таблицы — это фундаментальная часть заданий Spark, и при изучении документации кажется, что работать с ними нетрудно. На самом же деле опасности поджидают на каждом повороте. Команда VK Cloud перевела статью о том, с какими трудностями вы можете столкнуться и как их преодолеть.


Читать: https://habr.com/ru/post/692552/
Плохое качество данных – тихий убийца современных дата-стеков

В прошлом месяце мы прочитали любопытный материал в Datafloq, в котором поднимался очень важный вопрос для всех отраслей бизнеса, работающих с большими данными: как проверить качество этих самых данных? Статью мы, разумеется, прочитали  от начала до конца, поделились ею с коллегами, коллеги поделились со своими коллегами и все единогласно заявляли, едва увидев заголовок: контролируемость и отслеживаемость данных — вот камень преткновения в вопросе качества Big Data. Что ж, в принципе, ничего нового, - подумали мы, - но как выстроить процессы, связанные с этой самой отслеживаемостью? Мы перевели для вас этот материал, чтобы вы, как и мы, смогли разобраться в этом вопросе. Согласны ли вы с автором? Будем рады вашему мнению!
Подробнее в переводе Platforma

Читать: https://habr.com/ru/post/692670/
👍2
Big Data + Machine Learning = Love

В статье рассмотрим, как машинное обучение помогает обрабатывать большие объемы данных и извлекать ключевую информацию, скрытую в них. И, разумеется, приведем примеры совместного использования Big Data и Machine Learning (ML), а также расскажем об интересных проектах для тех, кто хотел бы начать работать с большими данными и ML.


Читать: https://habr.com/ru/post/692978/
🥰1
Как заменить Qlik и PowerBI с минимальными потерями: Visiology+Loginom+PostgreSQL

"Что делать, когда ТОПовые BI-системы стали недоступны и перспективы работы с ними оказались сильно ограничены?". Эта дилемма встает сегодня перед многими компаниями. Меня часто спрашивают, можем ли мы взять и перенести уже наработанные практики на другие платформы, доступные в России на сегодняшний день? К счастью, ответ на этот вопрос положительный, и об одном из вариантов его решения я расскажу сегодня.


Читать: https://habr.com/ru/post/692876/
Next Step: как перейти из продакта в Data Science

Кризисное время всегда способствует переменам, в том числе в поиске новой профессии или приобретении опыта. Вот почему мы решили запустить рубрику Next Step о сотрудниках Х5 Tech, которые смогли поменять профессию внутри компании. Михаил Неверов, директор по анализу данных Х5 Tech, специально для нашего блога на Хабре рассказал о кардинальной смене профессии – как он решился на переход из продакта в Big Data, какие сложности пришлось преодолеть, как он справился с синдромом самозванца и каково это – возглавлять и успешно управлять департаментом по анализу данных из 130+ человек.


Читать: https://habr.com/ru/post/693088/
👍1
Upgrade to Athena engine version 3 to increase query performance and access more analytics features

Read: https://aws.amazon.com/blogs/big-data/upgrade-to-athena-engine-version-3-to-increase-query-performance-and-access-more-analytics-features/
Теория временных рядов, применение трансформеров

В этой статье, я опишу некоторые основные понятия в теории анализа временных рядов, классические статистические алгоритмы прогнозирования и интересные алгоритмы машинного обучения, которые применяются для временных рядов

Если Вы готовы погрузиться в одну из очень интересных тем статистики и Вы любитель машинного обучения, продолжайте читать)


Читать: https://habr.com/ru/post/693562/
Линейный прогноз в Tableau. Терапевтический очерк

Линейный прогноз. Такой простой, понятный и востребованный, практически, в любой коммерческой отрасли. Казалось бы, посчитать его можно где угодно без особого труда. Но у Tableau на этот счет есть иное мнение...


Читать: https://habr.com/ru/post/692692/