Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.81K subscribers
570 photos
3 videos
2 files
2.93K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Optimize Federated Query Performance using EXPLAIN and EXPLAIN ANALYZE in Amazon Athena

Read: https://aws.amazon.com/blogs/big-data/optimize-federated-query-performance-using-explain-and-explain-analyze-in-amazon-athena/
👍1
Oracle Analytics Server Best Practices Series: Deployment

Oracle Analytics Server Best Practices Series: Deployment

Read: https://blogs.oracle.com/analytics/post/oracle-analytics-server-best-practices-series-deployment
Authentication Providers for Oracle Analytics Server on Oracle Cloud Marketplace

Authentication Providers for Oracle Analytics Server on Oracle Cloud Marketplace

Read: https://blogs.oracle.com/analytics/post/oas-mp-auth-providers
Configure Apache HTTP Server as Web Server for Oracle Analytics Server

Configure Apache HTTP Server as the Web Server for Oracle Analytics Server

Read: https://blogs.oracle.com/analytics/post/oas-mp-apache
SSL Offloading at Web Server for Oracle Analytics Server on Oracle Cloud Marketplace

SSL Offloading at Web Server for Oracle Analytics Server on Oracle Cloud Marketplace

Read: https://blogs.oracle.com/analytics/post/oas-mp-ssl-offloading-webserver
Single Sign-On Solutions for Oracle Analytics Server on On-Premise and on Oracle Cloud

Single Sign-On Solutions for Oracle Analytics Server on On-Premise and on OCI Cloud

Read: https://blogs.oracle.com/analytics/post/oas-sso-solutions
[recovery mode] SIEM-SIEM, откройся: какие инструменты наиболее эффективно анализируют цифровую инфраструктуру

Волна кибератак нарастает, две трети из них совершаются с целью получения данных. Как найти белые пятна в средствах защиты информации (СЗИ) и навести порядок в инфраструктуре, как помогает в решении этих задач Security Information and Event Management (SIEM), раскрыл руководитель отдела консалтинга и инженерной поддержки направления по информбезопасности компании Axoft Денис Фокин.


Читать: https://habr.com/ru/post/671438/
Переобучению быть или не быть: когда пора обновлять модели машинного обучения

Обучать ли модель ML повторно? Многие отвечают на этот вопрос интуитивно или действуют по взятой из ниоткуда схеме: по ночам, раз в месяц, «когда пользователи начинают жаловаться». Команда VK Cloud Solutions перевела статью о том, когда на самом деле стоит переобучать и на что опираться при принятии этого решения.

Примечание редакции: В оригинале статьи используют слово retrain. Мы перевели его как «переобучение», хотя обычно в русскоязычной среде этим термином описывают ситуации, когда модель излишне подгоняется на обучающих данных. В этой статье под переобучением имеют в виду именно повторное обучение модели с нуля.


Читать: https://habr.com/ru/post/671224/
How GE Proficy Manufacturing Data Cloud replatformed to improve TCO, data SLA, and performance

Read: https://aws.amazon.com/blogs/big-data/how-ge-proficy-manufacturing-data-cloud-replatformed-to-improve-tco-data-sla-and-performance/
[recovery mode] Big Data в IT-рекрутинге: как упрощается процесс найма для HR-менеджеров и поиска работы для кандидатов

Привет, на связи IT рекрутинговое агентство HEAAD. Рассказываем о том, как большие данные упрощают поиск работы кандидатам и процесс найма рекрутерам.


Читать: https://habr.com/ru/post/671664/
DataVault на Greenplum с помощью DBT

Привет, Хабр!

Меня зовут Марк Порошин, я занимаюсь DataScience в DV Group. Недавно я уже рассказывал про то, как начать трансформировать данные с помощью dbt. Сегодня я решил поделиться, как мы в DV Group поженили dbt, Greenplum и DataVault, собрали все грабли, что могли; немного поконтрибьютили в open-source, но по итогу остались очень довольны результатом.

Расскажу сначала пару слов о том, что такое DataVault. DataVault - методология построения хранилища, предполагающая высокую нормализацию данных (3ая нормальная форма). Основными ее компонентами являются:


Читать: https://habr.com/ru/post/671836/
Создание современной платформы для работы с данными с помощью Open-Source-решений

Команда VK Cloud Solutions перевела краткий конспект с Open Source Data Stack Conference. Конференция была посвящена созданию платформ для работы с данными на базе Open-Source-решений —докладчики представляли свои идеи и технологии на примере вымышленной базы данных интернет-магазина.

Автор пересказывает выступления о том, как с помощью ПО с открытым исходным кодом можно контролировать потоки клиентских данных в компании, решать задачи управления данными, Data Privacy, повышения эффективности работы Data-специалистов.


Читать: https://habr.com/ru/post/671642/
Нейронная сеть для ведения боевых действий. Какая война может быть с технологически развитой страной?

Ежеминутные военные сводки наших СМИ непроизвольно в голове программиста преобразуются в технологические решения. Заранее скажем, что мы не выдаем военных тайн ничьих стран, а только излагаем наше видение автоматизации процесса. Хотя всегда надо помнить поговорку от компании Спецлаб: если к тебе пришла умная мысль, значит, она уже кем-то реализована.
В атаку!

Читать: https://habr.com/ru/post/671948/
🤮1
ChainOps или DevOps

В настоящее время все в пространстве DevOps связано со словом, оканчивающимся на ops: GitOps, AIOps, MLOps, DevSecOps, EverythingOps. Хотя, возможно, это уже упоминалось в другом месте, я хочу написать некоторые точки зрения о том, как применять процессы DevOps к блокчейнам и/или технологиям распределенного реестра ( DLT ).

Например, просто для описания одного из этих так называемых терминов «эксплуатация»: «GitOps — это операционная среда, которая использует лучшие практики DevOps, используемые для разработки приложений, такие как контроль версий, совместная работа, соответствие требованиям и CI/CD, и применяет их к автоматизации инфраструктуры. [1]. Сразу приходят на ум инструменты инфраструктуры как кода, такие как Terraform.

ChainOps (с моей точки зрения) следует использовать для описания методов DevOps, выполняемых прямо в пространстве блокчейна.

В децентрализованном мире основным участником разработки приложений или Dapps (децентрализованных приложений) является узел , узел в DLT (технология распределенного реестра) — это минимальный компонент инфраструктуры, способный запускать необходимое программное обеспечение, чтобы быть функциональной частью. бухгалтерской книги.

Таким образом, Devops должен отвечать за то, чтобы каждый узел имел одинаковые сетевые и инфраструктурные возможности (например, ОЗУ, ЦП, пропускную способность), а также одинаковые версии пакетов программного обеспечения. (Например, версии биткойн-ядра или версии DappNode)

Автоматизированные рабочие процессы DevOps должны отвечать за доставку и интеграцию не только версий основного узла, но и другого программного обеспечения, необходимого для Dapp .


Читать: https://habr.com/ru/post/672108/
👍1
Создание Data Lake и Warehouse на GCP

Эта статья не будет технически глубокой. Мы поговорим о Data Lake и Data Warehouse, важных принципах, которые следует учитывать, и о том, какие сервисы GCP можно использовать для создания такой системы. Мы коснёмся каждого из GCP сервисов и поймём почему они будут полезны при создании Data Lake и Warehouse.

Прежде чем перейти к своей версии Data Lake и Data Warehouse, я хотел бы привести несколько известных архитектур, с которыми вы, возможно, уже знакомы, если интересуетесь этой темой. Архитектура, которую я бы предложил, будет более общей, чем эти: Cloud Storage as a data lake и Architecture: Marketing Data Warehouse.

В своей более общей версии Data Lake и Data Warehouse я расскажу о таких сервисах GCP, как Data Transfer Service, Dataproc, Cloud Storage, Cloud Scheduler, BigQuery, и Cloud SQL.


Читать: https://habr.com/ru/post/672280/
Netflix. Архитектура системы персонализации и рекомендаций

Перевод неточный, некоторые куски пропущены, так как показались мне повторением уже высказанных выше мыслей, некоторые - уточнены и дополнены примерами.

В предыдущих постах о персонализации в Netflix уже говорилось о том, что и данные, и алгоритмы их обработки одинаковы важны в задаче персонализации пользовательского опыта. Также важно вовлекать пользователя в систему рекомендаций - получать от него так больше откликов и данных. Сегодня мы поговорим о том, как может выглядеть архитектура, которая может максимизировать пользу от собираемых данных и поддерживает возможность быстрого внедрения нововведений.


Читать: https://habr.com/ru/post/672324/
Use the AWS Glue connector to read and write Apache Iceberg tables with ACID transactions and perform time travel

Read: https://aws.amazon.com/blogs/big-data/use-the-aws-glue-connector-to-read-and-write-apache-iceberg-tables-with-acid-transactions-and-perform-time-travel/