Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.81K subscribers
570 photos
3 videos
2 files
2.93K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Как я извлекал иерархию статей Википедии для задач NLP

Привет, я Игорь Буянов. работаю в MTS AI старшим разработчиком в департаменте машинного обучения в команде разметки и сбора данных.

В этом руководстве я покажу, как на основе Википедии можно сделать текстовый датасет, метки которго будут иметь иерархию. Необходимость в таком датасете возникла при тестировании различных подходов к эксплуатации иерархичности меток [3]. Иерархией меток могут представлены интенты, которые распознает чат-бот при запросе пользователя: является ли обращение пользователя заявлением о проблем с медленным интернетом или тем, что он вообще отсутствует. Общим классом здесь будет интернет, а подклассом будет скорость и отсутствие интернета, соответственно. Материалы доступны на нашем гитхабе.

Скажу сразу, что большего датасета не получилось, но сам метод показался мне достаточно интересным, чтобы о нём рассказать. Возможно, кому-то этот метод поможет кому-то начать свои исследования. Это руководство —  третья часть неформальной серии статей о парсинге Википедии (первая часть, вторая часть).


Читать: https://habr.com/ru/post/670782/
Use an AD FS user and Tableau to securely query data in AWS Lake Formation

Read: https://aws.amazon.com/blogs/big-data/use-an-ad-fs-user-and-tableau-to-securely-query-data-in-aws-lake-formation/
👍1
Как мы масштабируем машинное обучение

Введение

Наша компания еженедельно размечает порядка 10 миллиардов аннотаций. Чтобы обеспечивать высокое качество аннотаций для такого огромного объёма данных, мы разработали множество методик, в том числе sensor fusion для выявления подробностей о сложных окружениях, активный инструментарий для ускорения процесса разметки и автоматизированные бенчмарки для измерения и поддержания качества работы разметчиков. С расширением количества заказчиков, разметчиков и объёмов данных мы продолжаем совершенствовать эти методики, чтобы повышать качество, эффективность и масштабируемость разметки.
Как мы используем ML

Обширные объёмы передаваемых компании данных предоставляют ей бесценные возможности обучения и надстройки наших процессов аннотирования, и в то же время позволяют нашей команде разработчиков машинного обучения обучать модели, расширяющие набор доступных нам функций.


Читать: https://habr.com/ru/post/659069/
1
Disaster Recovery Solution for Oracle Analytics Server on Oracle Cloud Marketplace using Snapshot Replication

Disaster Recovery Solution for Oracle Analytics Server on Oracle Cloud Marketplace using Snapshot Replication

Read: https://blogs.oracle.com/analytics/post/disaster-recovery-solution-for-oracle-analytics-server-on-oracle-cloud-marketplace-using-snapshot-replication
Configure Oracle Cloud Infrastructure (OCI) Network Load Balancer for Oracle Analytics Server on Oracle Cloud Marketplace

Configure Oracle Cloud Infrastructure (OCI) Network Load Balancer for Oracle Analytics Server on Oracle Cloud Marketplace

Read: https://blogs.oracle.com/analytics/post/configure-oracle-cloud-infrastructure-oci-network-load-balancer-for-oracle-analytics-server-on-oracle-cloud-marketplace
Proudly announcing the Oracle Analytics Leaders of 2022

See how much the Oracle Analytics Leaders community has grown over the last year and connect with this dynamic group to understand how you can succeed with analytics.

Read: https://blogs.oracle.com/analytics/post/proudly-announcing-the-2022-oracle-analytics-leaders
SSL Offloading at Oracle Cloud Infrastructure (OCI) Load Balancer for Oracle Analytics Server on Oracle Cloud Marketplace

Configure SSL Offloading at Oracle Cloud Infrastructure (OCI) Load Balancer for Oracle Analytics Server on Oracle Cloud Marketplace

Read: https://blogs.oracle.com/analytics/post/oas-mp-ssl-offloading-lb
Как мы научились А/B-тестировать алгоритмы с помощью switchback-тестов

Привет! На связи Евгений Бокарев и Надежда Грачёва, в этой статье мы расскажем про внедрение switchback A/B-тестов в логистике Delivery Club. Обсудим, как оценивать результат эксперимента, если эффективность доставки одного заказа влияет на другие. И на примере покажем, как мы снизили долю невыполненных заказов, с какими сложностями столкнулись и как их решали.


Читать: https://habr.com/ru/post/670762/
Optimize Federated Query Performance using EXPLAIN and EXPLAIN ANALYZE in Amazon Athena

Read: https://aws.amazon.com/blogs/big-data/optimize-federated-query-performance-using-explain-and-explain-analyze-in-amazon-athena/
👍1
Oracle Analytics Server Best Practices Series: Deployment

Oracle Analytics Server Best Practices Series: Deployment

Read: https://blogs.oracle.com/analytics/post/oracle-analytics-server-best-practices-series-deployment
Authentication Providers for Oracle Analytics Server on Oracle Cloud Marketplace

Authentication Providers for Oracle Analytics Server on Oracle Cloud Marketplace

Read: https://blogs.oracle.com/analytics/post/oas-mp-auth-providers
Configure Apache HTTP Server as Web Server for Oracle Analytics Server

Configure Apache HTTP Server as the Web Server for Oracle Analytics Server

Read: https://blogs.oracle.com/analytics/post/oas-mp-apache
SSL Offloading at Web Server for Oracle Analytics Server on Oracle Cloud Marketplace

SSL Offloading at Web Server for Oracle Analytics Server on Oracle Cloud Marketplace

Read: https://blogs.oracle.com/analytics/post/oas-mp-ssl-offloading-webserver
Single Sign-On Solutions for Oracle Analytics Server on On-Premise and on Oracle Cloud

Single Sign-On Solutions for Oracle Analytics Server on On-Premise and on OCI Cloud

Read: https://blogs.oracle.com/analytics/post/oas-sso-solutions
[recovery mode] SIEM-SIEM, откройся: какие инструменты наиболее эффективно анализируют цифровую инфраструктуру

Волна кибератак нарастает, две трети из них совершаются с целью получения данных. Как найти белые пятна в средствах защиты информации (СЗИ) и навести порядок в инфраструктуре, как помогает в решении этих задач Security Information and Event Management (SIEM), раскрыл руководитель отдела консалтинга и инженерной поддержки направления по информбезопасности компании Axoft Денис Фокин.


Читать: https://habr.com/ru/post/671438/
Переобучению быть или не быть: когда пора обновлять модели машинного обучения

Обучать ли модель ML повторно? Многие отвечают на этот вопрос интуитивно или действуют по взятой из ниоткуда схеме: по ночам, раз в месяц, «когда пользователи начинают жаловаться». Команда VK Cloud Solutions перевела статью о том, когда на самом деле стоит переобучать и на что опираться при принятии этого решения.

Примечание редакции: В оригинале статьи используют слово retrain. Мы перевели его как «переобучение», хотя обычно в русскоязычной среде этим термином описывают ситуации, когда модель излишне подгоняется на обучающих данных. В этой статье под переобучением имеют в виду именно повторное обучение модели с нуля.


Читать: https://habr.com/ru/post/671224/
How GE Proficy Manufacturing Data Cloud replatformed to improve TCO, data SLA, and performance

Read: https://aws.amazon.com/blogs/big-data/how-ge-proficy-manufacturing-data-cloud-replatformed-to-improve-tco-data-sla-and-performance/
[recovery mode] Big Data в IT-рекрутинге: как упрощается процесс найма для HR-менеджеров и поиска работы для кандидатов

Привет, на связи IT рекрутинговое агентство HEAAD. Рассказываем о том, как большие данные упрощают поиск работы кандидатам и процесс найма рекрутерам.


Читать: https://habr.com/ru/post/671664/
DataVault на Greenplum с помощью DBT

Привет, Хабр!

Меня зовут Марк Порошин, я занимаюсь DataScience в DV Group. Недавно я уже рассказывал про то, как начать трансформировать данные с помощью dbt. Сегодня я решил поделиться, как мы в DV Group поженили dbt, Greenplum и DataVault, собрали все грабли, что могли; немного поконтрибьютили в open-source, но по итогу остались очень довольны результатом.

Расскажу сначала пару слов о том, что такое DataVault. DataVault - методология построения хранилища, предполагающая высокую нормализацию данных (3ая нормальная форма). Основными ее компонентами являются:


Читать: https://habr.com/ru/post/671836/