NEW BOT Телеграм, страница

Data Analysis / Big Data

Evidently или как пасти модели в проде

Evidently это библиотека, которая помогает анализировать и отслеживать качество данных и качество моделей машинного обучения в процессе их эксплуатации.

Рассмотрим как ее установить и использовать.

Читать: https://habr.com/ru/post/692272/

856 views16:43

Data Analysis / Big Data

Tableau — динамический фильтр TOP N

Всем привет!

На работы стояла такая задача - вывести количество запросов в поддержку за день с разбивкой по версии приложения.

Казалось бы легкая задача! Но оказалось, что количество версий приложений несколько десятков и на графике это может выглядеть ужасно.

Поэтому появилась мысль, а можно ли выводить, например 10 версий с самым большим количеством запросов, а при необходимости «развернуть» график.

К сожалению, данный фунционал не представлен явным образом в Tableau, поэтому пришлось поресерчить и вот что из этого получилось.

Читать: https://habr.com/ru/post/692294/

891 views04:16

Data Analysis / Big Data

Мониторинг в Apache NiFi. Часть первая

Apache NiFi динамично развивается и на сегодняшний день обладает достаточно большим набором возможностей, позволяющим отслеживать состояние потоков данных, ошибки и предупреждения, возникающие в процессорах и на кластере, а также состояние кластера.

Первая статья посвящена мониторингу потоков данных с помощью инструмента GUI NiFi. В последующих материалах мы рассмотрим задачи отчетности, опишем примеры сбора метрик и визуализации при помощи таких популярных систем, как Prometheus и Grafana.

Читать: https://habr.com/ru/post/692154/

908 views07:01

Data Analysis / Big Data

Land data from databases to a data lake at scale using AWS Glue blueprints

Read: https://aws.amazon.com/blogs/big-data/land-data-from-databases-to-a-data-lake-at-scale-using-aws-glue-blueprints/

834 views18:56

Data Analysis / Big Data

Improve federated queries with predicate pushdown in Amazon Athena

Read: https://aws.amazon.com/blogs/big-data/improve-federated-queries-with-predicate-pushdown-in-amazon-athena/

858 views19:06

Data Analysis / Big Data

Подводные камни Spark: что делать с перезаписью и дополнением в таблицах

Таблицы — это фундаментальная часть заданий Spark, и при изучении документации кажется, что работать с ними нетрудно. На самом же деле опасности поджидают на каждом повороте. Команда VK Cloud перевела статью о том, с какими трудностями вы можете столкнуться и как их преодолеть.

Читать: https://habr.com/ru/post/692552/

849 views08:13

Data Analysis / Big Data

Плохое качество данных – тихий убийца современных дата-стеков

В прошлом месяце мы прочитали любопытный материал в Datafloq, в котором поднимался очень важный вопрос для всех отраслей бизнеса, работающих с большими данными: как проверить качество этих самых данных? Статью мы, разумеется, прочитали от начала до конца, поделились ею с коллегами, коллеги поделились со своими коллегами и все единогласно заявляли, едва увидев заголовок: контролируемость и отслеживаемость данных — вот камень преткновения в вопросе качества Big Data. Что ж, в принципе, ничего нового, - подумали мы, - но как выстроить процессы, связанные с этой самой отслеживаемостью? Мы перевели для вас этот материал, чтобы вы, как и мы, смогли разобраться в этом вопросе. Согласны ли вы с автором? Будем рады вашему мнению!
Подробнее в переводе Platforma

Читать: https://habr.com/ru/post/692670/

👍2

909 views10:33

Data Analysis / Big Data

Split your monolithic Apache Kafka clusters using Amazon MSK Serverless

Read: https://aws.amazon.com/blogs/big-data/split-your-monolithic-apache-kafka-clusters-using-amazon-msk-serverless/

868 views19:22

Data Analysis / Big Data

Big Data + Machine Learning = Love

В статье рассмотрим, как машинное обучение помогает обрабатывать большие объемы данных и извлекать ключевую информацию, скрытую в них. И, разумеется, приведем примеры совместного использования Big Data и Machine Learning (ML), а также расскажем об интересных проектах для тех, кто хотел бы начать работать с большими данными и ML.

Читать: https://habr.com/ru/post/692978/

🥰1

880 views08:12

Data Analysis / Big Data

Как заменить Qlik и PowerBI с минимальными потерями: Visiology+Loginom+PostgreSQL

"Что делать, когда ТОПовые BI-системы стали недоступны и перспективы работы с ними оказались сильно ограничены?". Эта дилемма встает сегодня перед многими компаниями. Меня часто спрашивают, можем ли мы взять и перенести уже наработанные практики на другие платформы, доступные в России на сегодняшний день? К счастью, ответ на этот вопрос положительный, и об одном из вариантов его решения я расскажу сегодня.

Читать: https://habr.com/ru/post/692876/

852 views11:23

Data Analysis / Big Data

Next Step: как перейти из продакта в Data Science

Кризисное время всегда способствует переменам, в том числе в поиске новой профессии или приобретении опыта. Вот почему мы решили запустить рубрику Next Step о сотрудниках Х5 Tech, которые смогли поменять профессию внутри компании. Михаил Неверов, директор по анализу данных Х5 Tech, специально для нашего блога на Хабре рассказал о кардинальной смене профессии – как он решился на переход из продакта в Big Data, какие сложности пришлось преодолеть, как он справился с синдромом самозванца и каково это – возглавлять и успешно управлять департаментом по анализу данных из 130+ человек.

Читать: https://habr.com/ru/post/693088/

👍1

871 views16:06

Data Analysis / Big Data

Upgrade to Athena engine version 3 to increase query performance and access more analytics features

Read: https://aws.amazon.com/blogs/big-data/upgrade-to-athena-engine-version-3-to-increase-query-performance-and-access-more-analytics-features/

870 views17:20

Data Analysis / Big Data

Build incremental crawls of data lakes with existing Glue catalog tables

Read: https://aws.amazon.com/blogs/big-data/build-incremental-crawls-of-data-lakes-with-existing-glue-catalog-tables/

894 views22:05

Data Analysis / Big Data

Code versioning using AWS Glue Studio and GitHub

Read: https://aws.amazon.com/blogs/big-data/code-versioning-using-aws-glue-studio-and-github/

1K views22:15

Data Analysis / Big Data

Теория временных рядов, применение трансформеров

В этой статье, я опишу некоторые основные понятия в теории анализа временных рядов, классические статистические алгоритмы прогнозирования и интересные алгоритмы машинного обучения, которые применяются для временных рядов

Если Вы готовы погрузиться в одну из очень интересных тем статистики и Вы любитель машинного обучения, продолжайте читать)

Читать: https://habr.com/ru/post/693562/

999 views00:46

Data Analysis / Big Data

Линейный прогноз в Tableau. Терапевтический очерк

Линейный прогноз. Такой простой, понятный и востребованный, практически, в любой коммерческой отрасли. Казалось бы, посчитать его можно где угодно без особого труда. Но у Tableau на этот счет есть иное мнение...

Читать: https://habr.com/ru/post/692692/

962 views07:15

Data Analysis / Big Data

Data Engineering Weekly #103

Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-103

923 views02:07

Data Analysis / Big Data

All evidence are not created equal and some evidence are more equal than others

Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/10/all-evidence-are-not-created-equal-and-some-evidence-are-more-equal-than-others.html

883 views14:11

Data Analysis / Big Data

Get started with Apache Hudi using AWS Glue by implementing key design concepts – Part 1

Read: https://aws.amazon.com/blogs/big-data/part-1-get-started-with-apache-hudi-using-aws-glue-by-implementing-key-design-concepts/

864 views17:30

Data Analysis / Big Data

Разбираемся с платформами обработки данных на примере барбершопа «Бородатый сисадмин». Какие бывают и всем ли они нужны

Обычно тексты про работу с данными начинаются с числа, демонстрирующего объем производимых в мире данных. Или пассажа про то, что данные — новые золотые прииски («data is the new oil»). Это недалеко от правды: если раньше для понимания своих пользователей компаниям нужно было заказывать крупные социологические исследования, то сейчас, с глобальной цифровизацией, пользователи сами — осознанно или нет — предоставляет данные о себе.

Обрабатывают данные, то есть вытаскивают из них пользу, совершенно разнопрофильные компании. Даже сеть семейных парикмахерских на районе может вести отчеты в Excel, используя ее как CRM-систему. На основе данных вывели список клиентов, давно не приходивших на стрижку? Самое время кинуть им sms с «индивидуальной» скидкой.

В какой момент бизнесу стоит организовать целую платформу для обработки данных? Всегда ли обработка данных — это про big data? И какие варианты есть сейчас в России? Об этом всем — под катом.

Читать: https://habr.com/ru/post/694006/

👍1

857 views08:47

Data Analysis / Big Data

Непрерывное обучение для продакшен-систем

Жизненный цикл машинного обучения
Введение

Методология agile-разработки ПО, популяризированная примерно в 2010 году манифестом Agile Software Development, продвигает идею адаптивного планирования, эволюционного развития, быстрой доставки и непрерывного совершенствования как ключевых свойств, обеспечивающих быстрый и гибкий отклик на постоянно ускоряющиеся изменения рынка и его требований.

Поскольку линейные каскадные модели, позаимствованные из отраслей производства и строительства, оказались неспособны обеспечить конкурентное преимущество в постоянно усложняющемся и быстро меняющемся мире ПО, модели Agile и Scrum стали де-факто стандартом для современной разработки ПО.

Но что произойдёт, когда мы осуществим переход к Software 2.0?

Читать: https://habr.com/ru/post/686212/

897 views10:25

About

Blog

Apps

Platform