NEW BOT Телеграм, страница

Data Analysis / Big Data

Использование стандарта ISO 14224 при определении и стандартизации основных данных системы управления ТОиР организации

Когда руководителю предлагают испытать в работе новый стандарт, у него возникает резонный вопрос — какую пользу это принесёт предприятию? Особенно когда речь идёт о «необязательных» стандартах, таких как семейство ISO 5500X или стандарт ISO 14224. О том, как он помогает определять и стандартизировать данные предприятия о ТОиР, в этой статье расскажет системный аналитик Factory5 Николай Байдаченко.

Читать: https://habr.com/ru/post/685622/

975 views10:18

Data Analysis / Big Data

Как ГЛОНАСС испортил мне кровь и причем тут BI

Привет, Хабр! Этот будет пост о том, как тяжело может идти принятие решения об импортозамещении популярной западной системы. Речь пойдет о замене для PowerBI, который мы только-только начали использовать. Под катом — история с самого начала (в кратком изложении), а также много моих личных страданий и размышлений. Если вы тоже меняли BI, поделитесь своим опытом — может быть он поможет мне или кому-то еще.

Меня зовут Антон, и, если честно, я давно хотел что-то написать здесь. Но никак не доходили руки, не хватало времени или мотивации. Но вот свершилось! Я окончательно замучался с выбором российской BI-платформы. Это и сподвигло написать пост. Я даже нарисовал несколько картинок, чтобы все это было веселее, так что не судите строго за кустарное творчество.

Читать: https://habr.com/ru/post/685690/

👍1

1K views14:02

Data Analysis / Big Data

Store Amazon EMR in-transit data encryption certificates using AWS Secrets Manager

Read: https://aws.amazon.com/blogs/big-data/store-amazon-emr-in-transit-data-encryption-certificates-using-aws-secrets-manager/

951 views15:52

Data Analysis / Big Data

New row and column interactivity options for tables and pivot tables in Amazon QuickSight – Part 2

Read: https://aws.amazon.com/blogs/big-data/part-2-new-row-and-column-interactivity-options-for-tables-and-pivot-tables-in-amazon-quicksight/

1.01K views15:57

Data Analysis / Big Data

Учимся анализировать — полный цикл

Всем привет! Долго собирался выложить данный пост и вот настал момент = )

Контент будет ориентирован на новичков в анализе данных, ниже мы с Вами рассмотрим статистику работающих и безработных людей, поставим цели и проверим гипотезы.

Язык программирования: Python
Перейдем к анализу датасета

Читать: https://habr.com/ru/post/685764/

1.23K views21:47

Data Analysis / Big Data

Сколько денег приносит системное решение по А/Б тестам?

Хабр, привет! Меня зовут Наталья Тоганова, я работаю старшим бизнес-аналитиком в компании GlowByte. Мы помогаем компаниям с построением моделей, задачами на стыке data science и инфраструктуры, а также с аналитикой и А/Б тестами. Здесь я хочу поговорить об А/Б тестах и финансовых надеждах, которые на них возлагаются.

Вопрос «Сколько денег принесет более правильное проведение А/Б тестов?» – всплывает в нашей работе постоянно. И мы знаем правильный ответ на него: в краткосрочной перспективе довольно мало, а возможно и ничего. Даже в долгосрочной перспективе доходность может стремиться к нулю. Хотя… зависит от того, как мы понимаем слово «доходность». Если включать в него «снижение издержек», то правильные А/Б тесты могут быть выгодными. Именно поэтому мы ратуем за веру в статистику, эксперименты и инвестиции в методику и надежность алгоритмов принятия решений.

Кроме того, доверие к методике А/Б тестирования означает и доверие к результатам тестов, а также – что немаловажно – и к тем, чьи идеи проверялись. И хотя доверие важнее денег, нередко оно - ещё и залог роста доходности.

Читать: https://habr.com/ru/post/685038/

1.19K views14:04

Data Analysis / Big Data

Interactively develop your AWS Glue streaming ETL jobs using AWS Glue Studio notebooks

Read: https://aws.amazon.com/blogs/big-data/interactively-develop-your-aws-glue-streaming-etl-jobs-using-aws-glue-studio-notebooks/

👍1

1.1K views18:46

Data Analysis / Big Data

Use Amazon Redshift Spectrum with row-level and cell-level security policies defined in AWS Lake Formation

Read: https://aws.amazon.com/blogs/big-data/use-amazon-redshift-spectrum-with-row-level-and-cell-level-security-policies-defined-in-aws-lake-formation/

👍1

996 views15:31

Data Analysis / Big Data

Интерактив: «Анализируем вместе» часть 1/5 (декомпозиция)

Всем привет!

Запускается блок статей состоящий из 5 частей, в каждом из которых мы с Вами будем разбирать шаги анализа данных.

Каждая часть будет выходить, предположительно, раз в неделю и при завершении проект будет выложен на GitHub.

Статьи направлены на совместный анализ данных. Вы можете вместе со мной проводить анализ представленного дата сет.
Начнем анализировать

Читать: https://habr.com/ru/post/686260/

👍2🔥1

1.06K views21:49

Data Analysis / Big Data

Data Engineering Weekly #99

Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-99

👍1

920 views03:15

Data Analysis / Big Data

Заметки дата-инженера: интеграция Kafka и PySpark

Данная статья будет полезна тем, чья деятельность связана с Data Engineering, и тем, кто только знакомится с этой славной профессией. Вы узнаете про особенности настройки и интеграции Kafka со Structured Streaming, а также увидите различные способы чтения данных, работы с водяными метками и скользящим окном.

Привет, меня зовут Андрей, я работаю дата-инженером и по совместительству тимлидом разработки на проекте из банковского сектора. За плечами у меня и моих коллег большое количество успешных проектов, касающихся проектирования DWH и разработки ETL-процессов. Нам всем стали уже «родными» такие системы и инструменты как: Oracle, PostgreSQL, GreenPlum, Hive, Impala, YARN, Spark и Airflow (и прочие бигдата-покемоны), которые применялись в режиме пакетной обработки данных. А вот с потоковыми процессами на тот момент плотно работать ещё не приходилось. Нашей команде предстояло разработать «под ключ» систему типа «Real Time Marketing» – в онлайн формате анализировать действия пользователей в мобильном и интернет банке, сверяться и джойниться с множеством различных источников данных, чтобы в итоге эффективно генерировать актуальные и выгодные предложения для каждого из пользователей.

Читать: https://habr.com/ru/post/686242/

👍2

1.04K views10:09

Data Analysis / Big Data

Логистическая регрессия с помощью tidymodels

В последнее время я публикую заметки, которые демонстрируют работу с пакетом tidymodels. Я разбираю как простые, так и более сложными модели. Сегодняшняя заметка подойдет тем, кто только начинает свое знакомство с пакетом tidymodels.

Читать: https://habr.com/ru/post/686460/

👍1

974 views12:14

Data Analysis / Big Data

Определение ботов на сайте с помощью нейронных сетей

Пару лет назад, как и многие другие владельцы сайтов в рунете, я столкнулся с резким ростом посетителей из социальных сетей. Поначалу это радовало, пока дело не дошло до детального изучения поведения таких “пользователей” - оказалось что это боты. Мало того, они еще и сильно портили поведенческие факторы, которые критически важны для хорошего ранжирования в Яндексе, да и в Гугле.

Читать: https://habr.com/ru/post/686572/

👍1

975 views21:41

Data Analysis / Big Data

Как убрать посторонние шумы с фото документов с помощью PyTorch

Привет, Хабр!

При автоматизации работы с документацией иногда приходится иметь дело со сканами плохого качества. Особенно удручает ситуация, при которой вместо сканированного документа предоставляется фото с телефона.

В области обработки документов существует целый ряд задач, которые решаются с помощью машинного обучения. С примерным списком можно ознакомиться в данной статье. В этом руководстве я предлагаю решение проблемы различных помех на фото документа, которые могут возникнуть при плохом качестве съемки или плохом качестве самого документа.

Читать: https://habr.com/ru/post/686522/

👍1

955 views05:19

Data Analysis / Big Data

Cross-account streaming ingestion for Amazon Redshift

Read: https://aws.amazon.com/blogs/big-data/cross-account-streaming-ingestion-for-amazon-redshift/

👍1

859 views17:39

Data Analysis / Big Data

Введение в базы данных

Я решила написать эту статью, потому что именно такой статьи мне очень не хватало несколько лет назад, когда я только начала карьеру в аналитике данных. Тогда я часто слышала слова «база данных», «реляционная база», «primary key», примерно понимала, что они означают, но единую картину в голове у меня сложить не получалось.

Читать: https://habr.com/ru/post/686816/

👍4

957 views22:14

Data Analysis / Big Data

Crawl Delta Lake tables using AWS Glue crawlers

Read: https://aws.amazon.com/blogs/big-data/crawl-delta-lake-tables-using-aws-glue-crawlers/

👍1

854 views00:09

Data Analysis / Big Data

Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 1)

НЛМК- большая компания, производственные активы которой располагаются в разных регионах России и за рубежом. Перед нами стояла задача спроектировать и внедрить новую интеграционную платформу, которая могла бы быть использована для организации информационного обмена, учитывала специфику производственных предприятий и особенности решений, внедренных на протяжении последних десятков лет.

Меня зовут Илья Макаров, я работаю архитектором решений и в статье расскажу про архитектуру цифровой платформы НЛМК, из каких компонент, помимо Apache Kafka, она состоит, к каким соглашениям по именованию топиков и договоренностям по передаче данных мы пришли, как всем этим управляем.

Читать: https://habr.com/ru/post/682978/

🔥2

831 views07:49

Data Analysis / Big Data

Кто такой Data Product Manager и почему без него не обойтись в 2022 году, если вы работаете с Big Data

В 2022 году индустрия больших данных изменилась. И нужно решать, что делать с инфраструктурными вызовами, переходить ли в облако и как продолжать развитие ИТ-решений. Со всем этим компаниям может помочь новая роль в команде — Data Product Manager.

Это статья написана по мотивам выступления на VK Cloud Conf Александра Волынского, Technical Product Manager в VK Cloud. Вы можете посмотреть его целиком в записи.

Главные проблемы и вызовы для индустрии работы с данными в 2022 году
* Инфраструктура и инструменты.Как обеспечить работу систем, построенных на базе ПО вендоров, прекративших продажу лицензий?

* Поддержка и развитие решений на базе зарубежного ПО.Как развивать системы и где получить компетенции для технического сопровождения решений, поддержку которых прекратили зарубежные вендоры?

* Обеспечение безопасности решений. Обновления, новую функциональность и ключевые патчи для закрытия уязвимостей уже не получить.
Учитывая эти проблемы, многие компании решают перейти на Open-Source-инструменты и решения. Но применение этого стека технологий — тоже непростая задача: нужно выбрать решения, запланировать ресурсы, сформировать команду специалистов с нужными компетенциями или найти партнеров по внедрению ПО. И еще понадобится специалист, который все это организует: не всегда в компании может быть достаточно компетенций для реализации таких задач.

Читать: https://habr.com/ru/post/682822/

🔥1

902 views08:35

Data Analysis / Big Data

Create single output files for recipe jobs using AWS Glue DataBrew

Read: https://aws.amazon.com/blogs/big-data/create-single-output-files-for-recipe-jobs-using-aws-glue-databrew/

👍1

783 views17:41

Data Analysis / Big Data

Implement a highly available key distribution center for Amazon EMR

Read: https://aws.amazon.com/blogs/big-data/implement-a-highly-available-key-distribution-center-for-amazon-emr/

👍1

802 views17:46

About

Blog

Apps

Platform