Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.81K subscribers
570 photos
3 videos
2 files
2.93K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Генерация меток для обучения модели при помощи слабого контроля

Компаниям сложно следить за всеми новостями и мнениями о них в социальных сетях; существует огромное множество потенциально релевантных постов, и их фильтрация заняла бы много времени. Новый продукт Borealis AI был создан для решения этой проблемы путём извлечения в реальном времени информации социальных сетей, распознавания тематики и добавления метки для каждого поста с обозначением его типа. Например, пост может быть помечен как «пресс-релиз», «обзор пользователя» или «шум». Такие метки позволяют пользователям находить более чистые подмножества постов в соцсетях, которые им интересны.

Чтобы создать модель машинного обучения для классификации постов по таким категориям, необходимо получить высококачественные размеченные данные обучения. Иными словами, нам нужны примеры постов в социальных сетях, которые вручную размечены как пресс-релизы или обзоры пользователей, чтобы модель могла учиться тому, как распознавать новые примеры того же типа.


Читать: https://habr.com/ru/post/654621/
Как обучить нейросеть, если разметка данных стоит как самолет

Искусственный интеллект все чаще используется в медицинских целях, в частности для анализа медицинских изображений. Процесс создания качественной и эффективной нейросети долгий и дорогой. Более того, данных для обучения зачастую недостаточно.

Именно по этим причинам мы решили исследовать различные подходы, которые могли бы помочь сократить число необходимых аннотированных данных для получения модели того же качества. Это может позволить не только сократить время и расходы на аннотацию, но и ускорить цикл поставки новых моделей.

В результате нашего исследования, мы нашли лучший подход, который помог сохранить точность работы алгоритма при использовании лишь 20% разметки.
Магия - нет, расскажем подробнее…


Читать: https://habr.com/ru/post/670342/
Build a multilingual dashboard with Amazon Athena and Amazon QuickSight

Read: https://aws.amazon.com/blogs/big-data/build-a-multilingual-dashboard-with-amazon-athena-and-amazon-quicksight/
👍1
[recovery mode] Осваиваем китайский BI. Как построить дашборд в FineBI всего за 1 час

За последние несколько месяцев многие из нас вынужденно расширили представления об азиатской ИТ-отрасли. Оказалось, что, к примеру, в Китае выпускают не только смартфоны, умные роботы-пылесосы и телевизоры, но и разнообразные программные продукты, которых нам после ухода европейских и американских вендоров не хватает. Открытием стало и то, что многие ИТ-решения вполне конкурентоспособны, их интерфейс более чем дружелюбен. К тому же для работы в них знания иероглифов не нужно – вполне достаточно английского.
Наша компания специализируется на бизнес-аналитике, поэтому мы изучили то, что предлагает Китай в этом сегменте и остановили свой выбор (по крайней мере пока) на платформе для self service BI-анализа – FineBI.
Чтобы показать, как работает этот инструмент, расскажу, как построить с его помощью дэшборд. Для этого понадобится всего лишь час времени – даже если раньше с этим решением никогда не сталкивались.
Подключение к данным
Начинаем с главного – подключение и обработка данных. Для старта необходимо открыть вкладку Data Preparation. Она содержит ряд папок, в которых (организованных по аналогии с каталогами Windows) можно создать подключения, предварительно разделив их на смысловые блоки.

Нажав Add a group, можно сгруппировать данные. Например, можно выделить данные для презентации, продуктивные и тестовые данные и т.д. Соответственно, выбрав определенную папку, можно изучить данные, находящиеся в ней – ничего нестандартного. В моем случае в каталоге Superstore – 3 загруженных файла Excel. И датасет, который получим после обработки данных.


Читать: https://habr.com/ru/post/670528/
👍1
Как эффективно оптимизировать нагрузку на кластер ClickHouse без сложных решений. Опыт исследовательской компании

Данными Mediascope ежедневно пользуется большинство участников медиарекламного рынка и каждый день наши клиенты совершают множество запросов как к самим данным, так и к нашим сервисам расчета и анализа медиапоказателей. Поэтому нам нередко приходится решать самые разные задачи, связанные с оптимизацией нагрузки на инфраструктуру. В этой статье вы найдете интересный кейс управления нагрузкой на кластер ClickHouse (CH), который решили внутри Mediascope. Команда нашего отдела разработки систем расчета и доставки прошла большой путь: от неуместного применения МL до простого, но рабочего решения.


Читать: https://habr.com/ru/post/670560/
Как мы заняли 1-е место в задаче Matching в соревновании Data Fusion Contest 2022, или как нейронка обогнала бустинг

На платформе ods.ai прошло  соревнование по машинному обучению Data Fusion Contest 2022 от банка ВТБ (https://ods.ai/tracks/data-fusion-2022-competitions ).

Мы, команда Лаборатории ИИ Сбера и Института искусственного интеллекта AIRI, приняли решение поучаствовать в контесте, когда увидели, что  тема соревнования сильно пересекалась с нашими исследованиями. В итоге у нас неплохо получилось. Мы заняли первое место на private leaderboard в основной задаче. Здесь я хотел бы описать решение, которое привело нас к победе.

В рамках соревнования предлагались: датасет, содержащий транзакции, совершенные клиентами ВТБ по банковским картам, кликстрим (данные о посещении web-страниц) клиентов Ростелекома и разметка соответствия между клиентами из этих двух организаций. Соответствие устанавливается если два клиента – это один и тот же человек. Все данные были обезличены, а сами датасеты синтезированы на основе реальных данных таким образом, чтобы сохранить информацию о поведении пользователей.

В программу мероприятия входило пять задач разной сложности с разным призовым фондом. Мы решили сосредоточится на главной задаче Matching (https://ods.ai/tracks/data-fusion-2022-competitions/competitions/data-fusion2022-main-challenge ), как на самой сложной и самой интересной.


Читать: https://habr.com/ru/post/670572/
👍2
Simplify and optimize Python package management for AWS Glue PySpark jobs with AWS CodeArtifact

Read: https://aws.amazon.com/blogs/big-data/simplify-and-optimize-python-package-management-for-aws-glue-pyspark-jobs-with-aws-codeartifact/
Выбор кадастрового инженера с помощью Data Science

Закончивался 1 квартал 2020 года, ажиотаж вокруг пандемии ковид в РФ был на своем пике. Симптоматика первых переболевших показывала, что даже в случае относительно легко перенесенной болезни вопрос реабилитации и восстановления работоспособности (в том числе и психологическо-когнитивной) - встает на первое место. И мы наконец-то решили "Хватит сидеть, пора делать свое дело. Если не сейчас, то когда?!". В условиях повсеместной удаленки нашли иностранного профильного партнера-инвестора и разработали адаптированный к РФ концепт клиники/пансионата по реабилитации пациентов после перенесенного COVID-19.

Ключевым риском для инвесторов была возможная скорость реализации проекта (после пандемии предполагалась реконцепция клиники в многопрофильный реабилитационный центр - а это существенно большие инвестиции и сроки окупаемости) - поэтому было важно стартовать как можно быстрее. Команда проекта была преисполнена энтузиазма, готова соинвестировать и мы договорились с инвесторами, что основной транш инвестиций пойдет не на стройку, а на расширение и оборудование приобретенных командой площадей.

Мы достаточно быстро нашли несколько подходящих объектов в Московской области, но самым интересным показался объект, реализуемый Агентством по Страхованию Вкладов в рамках банкротство одного из банков РФ. Взвесив все "за" и "против", мы приняли решение об участии в публичных торгах и выкупили объект. Окрыленные победой на торгах, мы быстро заключили ДКП, произвели оплату и подали документы в Росреестр на регистрацию сделки. Не ожидая никаких подвохов с регистрацией (все-таки продавец - АСВ, торги - публичные, имущество - банковское) мы сразу же начали переговоры с подрядчиками по реновации и строительству. Как же мы ошибались...


Читать: https://habr.com/ru/post/670760/
Как я извлекал иерархию статей Википедии для задач NLP

Привет, я Игорь Буянов. работаю в MTS AI старшим разработчиком в департаменте машинного обучения в команде разметки и сбора данных.

В этом руководстве я покажу, как на основе Википедии можно сделать текстовый датасет, метки которго будут иметь иерархию. Необходимость в таком датасете возникла при тестировании различных подходов к эксплуатации иерархичности меток [3]. Иерархией меток могут представлены интенты, которые распознает чат-бот при запросе пользователя: является ли обращение пользователя заявлением о проблем с медленным интернетом или тем, что он вообще отсутствует. Общим классом здесь будет интернет, а подклассом будет скорость и отсутствие интернета, соответственно. Материалы доступны на нашем гитхабе.

Скажу сразу, что большего датасета не получилось, но сам метод показался мне достаточно интересным, чтобы о нём рассказать. Возможно, кому-то этот метод поможет кому-то начать свои исследования. Это руководство —  третья часть неформальной серии статей о парсинге Википедии (первая часть, вторая часть).


Читать: https://habr.com/ru/post/670782/
Use an AD FS user and Tableau to securely query data in AWS Lake Formation

Read: https://aws.amazon.com/blogs/big-data/use-an-ad-fs-user-and-tableau-to-securely-query-data-in-aws-lake-formation/
👍1
Как мы масштабируем машинное обучение

Введение

Наша компания еженедельно размечает порядка 10 миллиардов аннотаций. Чтобы обеспечивать высокое качество аннотаций для такого огромного объёма данных, мы разработали множество методик, в том числе sensor fusion для выявления подробностей о сложных окружениях, активный инструментарий для ускорения процесса разметки и автоматизированные бенчмарки для измерения и поддержания качества работы разметчиков. С расширением количества заказчиков, разметчиков и объёмов данных мы продолжаем совершенствовать эти методики, чтобы повышать качество, эффективность и масштабируемость разметки.
Как мы используем ML

Обширные объёмы передаваемых компании данных предоставляют ей бесценные возможности обучения и надстройки наших процессов аннотирования, и в то же время позволяют нашей команде разработчиков машинного обучения обучать модели, расширяющие набор доступных нам функций.


Читать: https://habr.com/ru/post/659069/
1
Disaster Recovery Solution for Oracle Analytics Server on Oracle Cloud Marketplace using Snapshot Replication

Disaster Recovery Solution for Oracle Analytics Server on Oracle Cloud Marketplace using Snapshot Replication

Read: https://blogs.oracle.com/analytics/post/disaster-recovery-solution-for-oracle-analytics-server-on-oracle-cloud-marketplace-using-snapshot-replication
Configure Oracle Cloud Infrastructure (OCI) Network Load Balancer for Oracle Analytics Server on Oracle Cloud Marketplace

Configure Oracle Cloud Infrastructure (OCI) Network Load Balancer for Oracle Analytics Server on Oracle Cloud Marketplace

Read: https://blogs.oracle.com/analytics/post/configure-oracle-cloud-infrastructure-oci-network-load-balancer-for-oracle-analytics-server-on-oracle-cloud-marketplace
Proudly announcing the Oracle Analytics Leaders of 2022

See how much the Oracle Analytics Leaders community has grown over the last year and connect with this dynamic group to understand how you can succeed with analytics.

Read: https://blogs.oracle.com/analytics/post/proudly-announcing-the-2022-oracle-analytics-leaders
SSL Offloading at Oracle Cloud Infrastructure (OCI) Load Balancer for Oracle Analytics Server on Oracle Cloud Marketplace

Configure SSL Offloading at Oracle Cloud Infrastructure (OCI) Load Balancer for Oracle Analytics Server on Oracle Cloud Marketplace

Read: https://blogs.oracle.com/analytics/post/oas-mp-ssl-offloading-lb
Как мы научились А/B-тестировать алгоритмы с помощью switchback-тестов

Привет! На связи Евгений Бокарев и Надежда Грачёва, в этой статье мы расскажем про внедрение switchback A/B-тестов в логистике Delivery Club. Обсудим, как оценивать результат эксперимента, если эффективность доставки одного заказа влияет на другие. И на примере покажем, как мы снизили долю невыполненных заказов, с какими сложностями столкнулись и как их решали.


Читать: https://habr.com/ru/post/670762/
Optimize Federated Query Performance using EXPLAIN and EXPLAIN ANALYZE in Amazon Athena

Read: https://aws.amazon.com/blogs/big-data/optimize-federated-query-performance-using-explain-and-explain-analyze-in-amazon-athena/
👍1
Oracle Analytics Server Best Practices Series: Deployment

Oracle Analytics Server Best Practices Series: Deployment

Read: https://blogs.oracle.com/analytics/post/oracle-analytics-server-best-practices-series-deployment
Authentication Providers for Oracle Analytics Server on Oracle Cloud Marketplace

Authentication Providers for Oracle Analytics Server on Oracle Cloud Marketplace

Read: https://blogs.oracle.com/analytics/post/oas-mp-auth-providers