NEW BOT Телеграм, страница

Data Analysis / Big Data

Super Protocol: трансформирует облачные вычисления для Web3

Super Protocol — это платформа конфиденциальных облачных вычислений, предназначенная для защиты данных во время их обработки. Это децентрализованная платформа на блокчейне, что означает, что ей не присущи недостатки при использовании централизованных сервисов.

В этой статье я постараюсь рассказать о Super Protocol и о том, какие задачи он позволяет решать.

Современное состояние облачных вычислений

Облачные вычисления - это предоставление вычислительной мощности (серверов, памяти, баз данных, сетей и ПО) посредством Интернет в целях аренды (как сервис). Облачные провайдеры позволяют компаниям и индивидуальным пользователям расширить их вычислительные способности. С такого рода сервисами пользователи могут хранить больше информации в облачных хранилищах, обрабатывать больше данных и использовать ПО как сервис (SaaS).

На текущий момент облачные вычисления используются повсеместно: онлайн-переводчики, онлайн-игры, платежные сервисы, видео коммуникации, сервисы навигации, онлайн-библиотеки, онлайн-почта, хранилища данных и многое другое.

За 2020 год рынок облачных вычислений вырос до $371,4 млрд. и продолжает свой бурный рост. Каждый год потребность в облачных вычислениях растет и также она растет в сфере технологий WEB 3.0. К 2025 году рынок может достичь оценки $832,1 млрд., со среднегодовым приростом в 17,5%.

В то же самое время облачные вычисления имеют ряд недостатков, которые призван устранить Super Protocol.

Недостатки централизованный сервисов, предоставляющих облачные вычисления

Читать: https://habr.com/ru/post/689120/

👍1

759 views06:08

Data Analysis / Big Data

OpenAI решили распознавание речи! Разбираемся так ли это…

Вчера OpenAI выпустили Whisper. По сути они просто опубликовали веса набора больших (и не очень) рекуррентных трансформеров для распознавания речи и статью (и самое главное, в статье ни слова про compute и ресурсы). И естественно уже вчера и сегодня утром мне в личку начали сыпаться сообщения, мол всё, распознавание речи решено, все идеально классно и быстро работает, расходимся.

Постараемся разобраться под катом. Короткий ответ, если вам лень читать - для языков, кроме английского, скорее всего это далеко от правды (проверил я на русском). На английском наверное стоит сделать отдельный и чуть более подробный разбор, если эта статья наберет хотя бы 50 плюсов.
Итак, поехали!

Читать: https://habr.com/ru/post/689572/

❤2👎1

757 views08:58

Data Analysis / Big Data

Как мы строим свою платформу для аналитиков

Привет, с вами снова Галина Вакулина, и в этой статье я расскажу, как мы строим платформу для аналитиков и избавляем их от ненужной работы.

Цель нашей команды — сделать так, чтобы в Точке работать с данными было удобно и быстро. Чем меньше времени аналитик тратит на рутину, тем больше времени у него остаётся на исследования, придумывание новых метрик, построение дашбордов, проверку гипотез и просто захватывающее копание в данных.

Читать: https://habr.com/ru/post/689140/

👍2

746 views11:47

Data Analysis / Big Data

Потери данных при репликации в аналитическое хранилище — автоматические сверки и мониторинг качества данных

Данные из боевых баз в нашей архитектуре асинхронно попадают в аналитическое хранилище (Clickhouse), где уже аналитики создают дашборды для продуктовых команд и делают выборки. Базы здоровые и под ощутимой нагрузкой: мы в день отправляем флот самолётов средней авиакомпании, несколько поездов и кучу автобусов. Поэтому взаимодействий с продуктом много.

ETL-процесс (извлечение данных, трансформация и загрузка в хранилище) часто подразумевает сложную логику переноса данных, и изначально нет уверенности в том, что данные доставляются без потерь и ошибок. Мы используем Kafka как шину данных, промежуточные сервисы на Benthos для трансформации записей и отправки в Clickhouse. На этапе создания пайплайна нужно было убедиться в отсутствии потерь с нашей стороны и корректной логике записи в шину данных.

Проверять вручную расхождения каждый раз не хотелось, кроме того мы нуждались в сервисе, который умел бы сверять новые данные по расписанию и показывать наглядно, где и какие имеются расхождения. Поэтому мы сделали сервис сверок, о котором я и расскажу, потому что готовых решений не нашёл.

Читать: https://habr.com/ru/post/689224/

👍1

810 views12:02

Data Analysis / Big Data

Enable self-service visual data integration and analysis for fund performance using AWS Glue Studio and Amazon QuickSight

Read: https://aws.amazon.com/blogs/big-data/enable-self-service-visual-data-integration-and-analysis-for-fund-performance-using-aws-glue-studio-and-amazon-quicksight/

👍1

830 views16:53

Data Analysis / Big Data

Critics, stories, and ethics

Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/09/critics-stories-and-ethics.html

👍1

852 views13:23

Data Analysis / Big Data

Upgrade Amazon EMR Hive Metastore from 5.X to 6.X

Read: https://aws.amazon.com/blogs/big-data/upgrade-amazon-emr-hive-metastore-from-5-x-to-6-x/

👍1

879 views15:16

Data Analysis / Big Data

Run a data processing job on Amazon EMR Serverless with AWS Step Functions

Read: https://aws.amazon.com/blogs/big-data/run-a-data-processing-job-on-amazon-emr-serverless-with-aws-step-functions/

👍1

930 views17:44

Data Analysis / Big Data

Чего ждать от «Управления данными 2022»?

Привет, Хабр! Буквально на днях, уже на следующей неделе стартует конференция “Управление данными 2022”. Издательство "Открытые Системы" проводит мероприятие седьмой год подряд, но в 2022 году форум обещает быть особенно интересным. Почему мы решили принять в нем участие, и какие доклады, я сам бы хотел послушать, читайте под катом.
Узнать больше

Читать: https://habr.com/ru/post/690026/

👍1

892 views14:13

Data Analysis / Big Data

Data Engineering Weekly #102

Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-102

👍1

847 views02:05

Data Analysis / Big Data

Распознавание фейков с помощью технологий управления данными

Развитие технологий и все возрастающие объемы информации привели к тому, что слово «фейк» или «информационный фейк» прочно вошло в нашу жизнь. Всевозможные мошенники идут в ногу со временем и оперативно ставят себе на службу технологии, изобретая все новые способы влиять на людей. А значит, нам необходимо задуматься о том, как использовать накопившийся опыт и технологии управления информацией для распознавания фейков, т.е. для их автоматического отделения от реальных фактов. Сегодня мы расскажем о всем многообразии использования технологий управления данными для распознавания фейков.

Что же такое фейки?

Существует множество определений фейков, мы не будем на них останавливаться, но отметим, что в этой статье мы будем говорить не об ошибочной информации (такой как опечатки или случайно вкравшиеся неточности), а об информации искажавшейся намеренно.

Фейки можно встретить практически в любой форме — тексте, видео или аудио контенте. Поговорим сначала о последних. Для создания аудио и видео фейков существует специальный инструментарий, построенный на глубоком обучении (deep learning). Искаженные таким образом факты называются дипфейками [1, 2]. Кажется, что уже все видели их примеры — эти видеоклипы с различными знаменитостями, которые говорили или делали что-то, чего на самом деле не было (в [3] есть небольшой таймлайн с известными дипфейками), многие пранкеры используют дипфейки в своих звонках. Однако дипфейки это не развлечение, а серьезная угроза: продвинутые мошенники их уже освоили и во-всю пускают в дело [4, 5].

Читать: https://habr.com/ru/post/690206/

👍1

887 views13:58

Data Analysis / Big Data

Automate ETL jobs between Amazon RDS for SQL Server and Azure Managed SQL using AWS Glue Studio

Read: https://aws.amazon.com/blogs/big-data/automate-etl-jobs-between-amazon-rds-for-sql-server-and-azure-managed-sql-using-aws-glue-studio/

👍1

861 views18:22

Data Analysis / Big Data

Dagster | Туториал

Dagster — это оркестратор, предназначенный для организации конвейеров обработки данных: ETL, проведение тестов, формирование отчетов, обучение ML-моделей и т.д.

На паре несложных примеров посмотрим как его развернуть, настроить и работать с ним.

Читать: https://habr.com/ru/post/690342/

👍1

873 views09:13

Data Analysis / Big Data

Get a quick start with Apache Hudi, Apache Iceberg, and Delta Lake with Amazon EMR on EKS

Read: https://aws.amazon.com/blogs/big-data/get-a-quick-start-with-apache-hudi-apache-iceberg-and-delta-lake-with-amazon-emr-on-eks/

👍1

818 views15:23

Data Analysis / Big Data

Поиск it компаний с аккредитацией минцифры и крупицы Big Data

Времени на раскачку нет - сразу к делу.

На сайте digital.gov.ru можно найти документ со списком организаций, прошедших аккредитацию минцифры. Давайте оперативно реализуем сервис для поиска и проверки аккредитации у организаций.
Проверить аккредитацию

Читать: https://habr.com/ru/post/690474/

812 views15:59

Data Analysis / Big Data

Customize Amazon QuickSight dashboards with the new bookmarks functionality

Read: https://aws.amazon.com/blogs/big-data/customize-amazon-quicksight-dashboards-with-the-new-bookmarks-functionality/

👍1

813 views17:05

Data Analysis / Big Data

How AWS Data Lab helped BMW Financial Services design and build a multi-account modern data architecture

Read: https://aws.amazon.com/blogs/big-data/how-aws-data-lab-helped-bmw-financial-services-design-and-build-a-multi-account-modern-data-architecture/

👍1

859 views17:11

Data Analysis / Big Data

Ensure availability of your data using cross-cluster replication with Amazon OpenSearch Service

Read: https://aws.amazon.com/blogs/big-data/ensure-availability-of-your-data-using-cross-cluster-replication-with-amazon-opensearch-service/

👍1

791 views16:28

Data Analysis / Big Data

Сравнение FineBI и FineReport

Китайский производитель BI-решений FanRuan постепенно открывает для мирового рынка свои передовые разработки в сфере бизнес-анализа. Однако FineBI далеко не единственный продукт, предлагаемый компанией. Сегодня разберем подробнее, что из себя представляют FineBI и другой продукт анализа данных FineReport, рассмотрим их главные сходства и различия.

Читать: https://habr.com/ru/post/690722/

790 views09:32

Data Analysis / Big Data

Python для биологов

Каждый, кто слышит словосочетание "язык программирования", наверняка представляет себе код или скрипт, который выполняет строгий порядок действий для решения сложной технической задачи. Если спросить прохожего, для каких целей используются языки программирования, первое, что придет ему на ум - разработка, а любой гуманитарий скажет, что это скучно и совершенно не интересно. Однако, мне хотелось бы развеять эти стереотипы. Учитывая современные тенденции роста научно-технического прогресса, важно отметить, что программирование пересало быть чисто "техническим" инструментом. Сегодня оно позволяет не только создавать алгоритмы для управления техникой, но и делать научные открытия, например в биологии. Понять, как устроена биоинжереная машина внутри наших клеток, какие функции выполняеет каждый отдельно взятый ген, какие гены ответственны за наши болезни, как вирусы и бактерии влияют на нас на молекулярном уровне, как создать новый фармацевтический препарат и множество других вопросов, позволяет программирование.

Python - высокоуровневый язык программирования, который широко применяется в самых разных сферах деятельности: в разработке, в тестировании, в администровании, в анализе данных, в моделировании, а также в науке. Широкое распространение он получил не только, благодаря своей простоте и лаконичности, но и в силу своей модульности, возможности интегрироваться с другими языками программирования и наличия большого количества пакетов для анализа больших данных и научных расчетов.

Читать: https://habr.com/ru/post/690734/

861 views10:20

Data Analysis / Big Data

Build a high-performance, transactional data lake using open-source Delta Lake on Amazon EMR

Read: https://aws.amazon.com/blogs/big-data/build-a-high-performance-transactional-data-lake-using-open-source-delta-lake-on-amazon-emr/

938 views17:57

About

Blog

Apps

Platform