Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.82K subscribers
570 photos
3 videos
2 files
2.92K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Evidently или как пасти модели в проде

Evidently это библиотека, которая помогает анализировать и отслеживать качество данных и качество моделей машинного обучения в процессе их эксплуатации.

Рассмотрим как ее установить и использовать.


Читать: https://habr.com/ru/post/692272/
Tableau — динамический фильтр TOP N

Всем привет!

На работы стояла такая задача - вывести количество запросов в поддержку за день с разбивкой по версии приложения.

Казалось бы легкая задача! Но оказалось, что количество версий приложений несколько десятков и на графике это может выглядеть ужасно.

Поэтому появилась мысль, а можно ли выводить, например 10 версий с самым большим количеством запросов, а при необходимости «развернуть» график.

К сожалению, данный фунционал не представлен явным образом в Tableau, поэтому пришлось поресерчить и вот что из этого получилось.


Читать: https://habr.com/ru/post/692294/
Мониторинг в Apache NiFi. Часть первая

Apache NiFi динамично развивается и на сегодняшний день обладает достаточно большим набором возможностей, позволяющим отслеживать состояние потоков данных, ошибки и предупреждения, возникающие в процессорах и на кластере, а также состояние кластера.

Первая статья посвящена мониторингу потоков данных с помощью инструмента GUI NiFi. В последующих материалах мы рассмотрим задачи отчетности, опишем примеры сбора метрик и визуализации при помощи таких популярных систем, как Prometheus и Grafana.


Читать: https://habr.com/ru/post/692154/
Подводные камни Spark: что делать с перезаписью и дополнением в таблицах

Таблицы — это фундаментальная часть заданий Spark, и при изучении документации кажется, что работать с ними нетрудно. На самом же деле опасности поджидают на каждом повороте. Команда VK Cloud перевела статью о том, с какими трудностями вы можете столкнуться и как их преодолеть.


Читать: https://habr.com/ru/post/692552/
Плохое качество данных – тихий убийца современных дата-стеков

В прошлом месяце мы прочитали любопытный материал в Datafloq, в котором поднимался очень важный вопрос для всех отраслей бизнеса, работающих с большими данными: как проверить качество этих самых данных? Статью мы, разумеется, прочитали  от начала до конца, поделились ею с коллегами, коллеги поделились со своими коллегами и все единогласно заявляли, едва увидев заголовок: контролируемость и отслеживаемость данных — вот камень преткновения в вопросе качества Big Data. Что ж, в принципе, ничего нового, - подумали мы, - но как выстроить процессы, связанные с этой самой отслеживаемостью? Мы перевели для вас этот материал, чтобы вы, как и мы, смогли разобраться в этом вопросе. Согласны ли вы с автором? Будем рады вашему мнению!
Подробнее в переводе Platforma

Читать: https://habr.com/ru/post/692670/
👍2
Big Data + Machine Learning = Love

В статье рассмотрим, как машинное обучение помогает обрабатывать большие объемы данных и извлекать ключевую информацию, скрытую в них. И, разумеется, приведем примеры совместного использования Big Data и Machine Learning (ML), а также расскажем об интересных проектах для тех, кто хотел бы начать работать с большими данными и ML.


Читать: https://habr.com/ru/post/692978/
🥰1
Как заменить Qlik и PowerBI с минимальными потерями: Visiology+Loginom+PostgreSQL

"Что делать, когда ТОПовые BI-системы стали недоступны и перспективы работы с ними оказались сильно ограничены?". Эта дилемма встает сегодня перед многими компаниями. Меня часто спрашивают, можем ли мы взять и перенести уже наработанные практики на другие платформы, доступные в России на сегодняшний день? К счастью, ответ на этот вопрос положительный, и об одном из вариантов его решения я расскажу сегодня.


Читать: https://habr.com/ru/post/692876/
Next Step: как перейти из продакта в Data Science

Кризисное время всегда способствует переменам, в том числе в поиске новой профессии или приобретении опыта. Вот почему мы решили запустить рубрику Next Step о сотрудниках Х5 Tech, которые смогли поменять профессию внутри компании. Михаил Неверов, директор по анализу данных Х5 Tech, специально для нашего блога на Хабре рассказал о кардинальной смене профессии – как он решился на переход из продакта в Big Data, какие сложности пришлось преодолеть, как он справился с синдромом самозванца и каково это – возглавлять и успешно управлять департаментом по анализу данных из 130+ человек.


Читать: https://habr.com/ru/post/693088/
👍1
Upgrade to Athena engine version 3 to increase query performance and access more analytics features

Read: https://aws.amazon.com/blogs/big-data/upgrade-to-athena-engine-version-3-to-increase-query-performance-and-access-more-analytics-features/
Теория временных рядов, применение трансформеров

В этой статье, я опишу некоторые основные понятия в теории анализа временных рядов, классические статистические алгоритмы прогнозирования и интересные алгоритмы машинного обучения, которые применяются для временных рядов

Если Вы готовы погрузиться в одну из очень интересных тем статистики и Вы любитель машинного обучения, продолжайте читать)


Читать: https://habr.com/ru/post/693562/
Линейный прогноз в Tableau. Терапевтический очерк

Линейный прогноз. Такой простой, понятный и востребованный, практически, в любой коммерческой отрасли. Казалось бы, посчитать его можно где угодно без особого труда. Но у Tableau на этот счет есть иное мнение...


Читать: https://habr.com/ru/post/692692/
Get started with Apache Hudi using AWS Glue by implementing key design concepts – Part 1

Read: https://aws.amazon.com/blogs/big-data/part-1-get-started-with-apache-hudi-using-aws-glue-by-implementing-key-design-concepts/
Разбираемся с платформами обработки данных на примере барбершопа «Бородатый сисадмин». Какие бывают и всем ли они нужны

Обычно тексты про работу с данными начинаются с числа, демонстрирующего объем производимых в мире данных. Или пассажа про то, что данные — новые золотые прииски («data is the new oil»). Это недалеко от правды: если раньше для понимания своих пользователей компаниям нужно было заказывать крупные социологические исследования, то сейчас, с глобальной цифровизацией, пользователи сами — осознанно или нет — предоставляет данные о себе.

Обрабатывают данные, то есть вытаскивают из них пользу, совершенно разнопрофильные компании. Даже сеть семейных парикмахерских на районе может вести отчеты в Excel, используя ее как CRM-систему. На основе данных вывели список клиентов, давно не приходивших на стрижку? Самое время кинуть им sms с «индивидуальной» скидкой.

В какой момент бизнесу стоит организовать целую платформу для обработки данных? Всегда ли обработка данных — это про big data? И какие варианты есть сейчас в России? Об этом всем — под катом.


Читать: https://habr.com/ru/post/694006/
👍1
Непрерывное обучение для продакшен-систем

Жизненный цикл машинного обучения
Введение

Методология agile-разработки ПО, популяризированная примерно в 2010 году манифестом Agile Software Development, продвигает идею адаптивного планирования, эволюционного развития, быстрой доставки и непрерывного совершенствования как ключевых свойств, обеспечивающих быстрый и гибкий отклик на постоянно ускоряющиеся изменения рынка и его требований.

Поскольку линейные каскадные модели, позаимствованные из отраслей производства и строительства, оказались неспособны обеспечить конкурентное преимущество в постоянно усложняющемся и быстро меняющемся мире ПО, модели Agile и Scrum стали де-факто стандартом для современной разработки ПО.

Но что произойдёт, когда мы осуществим переход к Software 2.0?

Читать: https://habr.com/ru/post/686212/