Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.82K subscribers
570 photos
3 videos
2 files
2.92K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Заметки дата-инженера: интеграция Kafka и PySpark

Данная статья будет полезна тем, чья деятельность связана с Data Engineering, и тем, кто только знакомится с этой славной профессией. Вы узнаете про особенности настройки и интеграции Kafka со Structured Streaming, а также увидите различные способы чтения данных, работы с водяными метками и скользящим окном.

Привет, меня зовут Андрей, я работаю дата-инженером и по совместительству тимлидом разработки на проекте из банковского сектора. За плечами у меня и моих коллег большое количество успешных проектов, касающихся проектирования DWH и разработки ETL-процессов. Нам всем стали уже «родными» такие системы и инструменты как: Oracle, PostgreSQL, GreenPlum, Hive, Impala, YARN, Spark и Airflow (и прочие бигдата-покемоны), которые применялись в режиме пакетной обработки данных. А вот с потоковыми процессами на тот момент плотно работать ещё не приходилось. Нашей команде предстояло разработать «под ключ» систему типа «Real Time Marketing» – в онлайн формате анализировать действия пользователей в мобильном и интернет банке, сверяться и джойниться с множеством различных источников данных, чтобы в итоге эффективно генерировать актуальные и выгодные предложения для каждого из пользователей.


Читать: https://habr.com/ru/post/686242/
👍2
Логистическая регрессия с помощью tidymodels

В последнее время я публикую заметки, которые демонстрируют работу с пакетом tidymodels. Я разбираю как простые, так и более сложными модели. Сегодняшняя заметка подойдет тем, кто только начинает свое знакомство с пакетом tidymodels.


Читать: https://habr.com/ru/post/686460/
👍1
Определение ботов на сайте с помощью нейронных сетей

Пару лет назад, как и многие другие владельцы сайтов в рунете, я столкнулся с резким ростом посетителей из социальных сетей. Поначалу это радовало, пока дело не дошло до детального изучения поведения таких “пользователей” - оказалось что это боты. Мало того, они еще и сильно портили поведенческие факторы, которые критически важны для хорошего ранжирования в Яндексе, да и в Гугле.


Читать: https://habr.com/ru/post/686572/
👍1
Как убрать посторонние шумы с фото документов с помощью PyTorch

Привет, Хабр!

При автоматизации работы с документацией иногда приходится иметь дело со сканами плохого качества. Особенно удручает ситуация, при которой вместо сканированного документа предоставляется фото с телефона.

В области обработки документов существует целый ряд задач, которые решаются с помощью машинного обучения. С примерным списком можно ознакомиться в данной статье. В этом руководстве я предлагаю решение проблемы различных помех на фото документа, которые могут возникнуть при плохом качестве съемки или плохом качестве самого документа.


Читать: https://habr.com/ru/post/686522/
👍1
Введение в базы данных

Я решила написать эту статью, потому что именно такой статьи мне очень не хватало несколько лет назад, когда я только начала карьеру в аналитике данных. Тогда я часто слышала слова «база данных», «реляционная база», «primary key», примерно понимала, что они означают, но единую картину в голове у меня сложить не получалось.


Читать: https://habr.com/ru/post/686816/
👍4
Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 1)

НЛМК- большая компания, производственные активы которой располагаются в разных регионах России и за рубежом. Перед нами стояла задача спроектировать и внедрить новую интеграционную платформу, которая могла бы быть использована для организации информационного обмена, учитывала специфику производственных предприятий и особенности решений, внедренных на протяжении последних десятков лет.

Меня зовут Илья Макаров, я работаю архитектором решений и в статье расскажу про архитектуру цифровой платформы НЛМК, из каких компонент, помимо Apache Kafka, она состоит, к каким соглашениям по именованию топиков и договоренностям по передаче данных мы пришли, как всем этим управляем.


Читать: https://habr.com/ru/post/682978/
🔥2
Кто такой Data Product Manager и почему без него не обойтись в 2022 году, если вы работаете с Big Data

В 2022 году индустрия больших данных изменилась. И нужно решать, что делать с инфраструктурными вызовами, переходить ли в облако и как продолжать развитие ИТ-решений. Со всем этим компаниям может помочь новая роль в команде — Data Product Manager.

Это статья написана по мотивам выступления на VK Cloud Conf Александра Волынского, Technical Product Manager в VK Cloud. Вы можете посмотреть его целиком в записи.

Главные проблемы и вызовы для индустрии работы с данными в 2022 году
* Инфраструктура и инструменты.Как обеспечить работу систем, построенных на базе ПО вендоров, прекративших продажу лицензий?

* Поддержка и развитие решений на базе зарубежного ПО.Как развивать системы и где получить компетенции для технического сопровождения решений, поддержку которых прекратили зарубежные вендоры?

* Обеспечение безопасности решений. Обновления, новую функциональность и ключевые патчи для закрытия уязвимостей уже не получить.
Учитывая эти проблемы, многие компании решают перейти на Open-Source-инструменты и решения. Но применение этого стека технологий — тоже непростая задача: нужно выбрать решения, запланировать ресурсы, сформировать команду специалистов с нужными компетенциями или найти партнеров по внедрению ПО. И еще понадобится специалист, который все это организует: не всегда в компании может быть достаточно компетенций для реализации таких задач.


Читать: https://habr.com/ru/post/682822/
🔥1
Create single output files for recipe jobs using AWS Glue DataBrew

Read: https://aws.amazon.com/blogs/big-data/create-single-output-files-for-recipe-jobs-using-aws-glue-databrew/
👍1
Implement a highly available key distribution center for Amazon EMR

Read: https://aws.amazon.com/blogs/big-data/implement-a-highly-available-key-distribution-center-for-amazon-emr/
👍1
Как мы сделали матчер: тайтлы, БЕРТы и две сестры

Всем привет! Меня зовут Андрей Русланцев, я — Senior Machine Learning Engineer в команде матчера в AliExpress Россия. Я расскажу о том, как мы сделали матчер: какие проблемы нам пришлось решить, какие модели мы использовали, как выглядит наш текущий пайплайн, и почему наш матчинг действительно супер.


Читать: https://habr.com/ru/post/686672/
👍1
Smart Forms: Наш опыт автоматизации сбора данных

Привет, Хабр! Сегодня я хочу поговорить о проблеме автоматизации сбора данных. В этом посте мы обсудим, какие именно минусы несет сбор данных через файлы Excel, а также расскажем подробнее о наших собственных наработках по автоматизации сбора информации. Речь пойдет о практических аспектах применения инструмента Smart Forms, поэтому пост будет интересен в первую очередь пользователям решений Visiology, а также специалистам, которые организуют сбор информации или планируют это делать. Всех, у кого уже есть подобный опыт на любой платформе приглашаю присоединиться к обсуждению в комментариях.


Читать: https://habr.com/ru/post/650141/
🔥1
Integrate AWS IAM Identity Center (successor to AWS Single Sign-On) with AWS Lake Formation fine-grained access controls

Read: https://aws.amazon.com/blogs/big-data/integrate-aws-iam-identity-center-successor-to-aws-single-sign-on-with-aws-lake-formation-fine-grained-access-controls/
👍1
Предохранители для данных: как автоматические выключатели повышают Data Quality

Представьте, что бизнес-метрика неожиданно резко вырастает или проседает. Как понять, реальное это изменение или проблема с качеством данных? Команда VK Cloud перевела статью о том, как в компании Intuit решают этот вопрос с помощью предохранителей для пайплайнов данных.
В чем суть предохранителя

Если возникают проблемы с данными, предохранитель разрывает «цепь» и не пускает некачественные данные в следующие процессы обработки. В результате данные,  которые приходятся на периоды низкого качества, не входят в отчеты. А значит, можно быть уверенным в их корректности.

Такой проактивный подход сокращает Time-to-Reliable-Insights до минут. А автоматизация обеспечивает прямую зависимость данных от их качества. Это позволяет избежать разрушительных авралов, которые возникают всякий раз, когда нужно проверить и поправить метрики или отчеты. Далее мы в подробностях рассмотрим, как внедрять такие предохранители.


Читать: https://habr.com/ru/post/684120/
🔥3
Convert Oracle XML BLOB data using Amazon EMR and load to Amazon Redshift

Read: https://aws.amazon.com/blogs/big-data/convert-oracle-xml-blob-data-using-amazon-emr-and-load-to-amazon-redshift/
🥰2