NEW BOT Телеграм, страница

Data Analysis / Big Data

Как переносить данные из S3 в BigQuery с помощью Meltano

Создание пайплайнов для трансфера данных — рутинная задача Data-инженеров. Чтобы ее решить, многие копируют код коннекторов из одного проекта в другой. Из-за копипаста общая структура ломается, и в перспективе может возникнуть трудность с поддержкой проекта.

Источников данных много — Яндекс.Директ, Google Analytics и другие. По отдельности они не дают нужной картины, — данные всё равно приходится собирать в один Data Warehouse. Тут на помощь приходит Meltano: он позволяет стандартизировать написание коннекторов к различным источникам данных и быстро перенести все нужные данные.

Читать: https://habr.com/ru/post/686976/

👍1

849 views11:52

Data Analysis / Big Data

Как мы не взяли золото на Каггл или умей верно выбрать сабмит

Привет, чемпион!

Мы тут недавно потратили месяц на соревнование «UW-Madison GI Tract Image Segmentation» и не взяли золото. Золотую медаль не взяли, но теперь у каждого из нас есть первая бронза. И сейчас мы кратко расскажем про сработавшие подходы в сегментации. А еще расскажем, что можно было сделать, чтоб все-таки забрать золото. (Спойлер: мы были в шаге от золота ...)

Читать: https://habr.com/ru/post/688660/

👍1

872 views12:02

Data Analysis / Big Data

Как локализовать гигантскую платформу в России на примере AliExpress

Ребята из AliExpress делятся собственным опытом локализации платформы. В этой статье они рассказали об адаптации поиска и рекомендаций, а также о создании инфраструктуры.

Подробнее: https://tprg.ru/l5dC

👍3

952 views13:12

Data Analysis / Big Data

How ZS created a multi-tenant self-service data orchestration platform using Amazon MWAA

Read: https://aws.amazon.com/blogs/big-data/how-zs-created-a-multi-tenant-self-service-data-orchestration-platform-using-amazon-mwaa/

👍1

939 views16:32

Data Analysis / Big Data

Data Engineering Weekly #101

Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-101

👍1

827 views04:03

Data Analysis / Big Data

Подготовка датасета для машинного обучения: 10 базовых способов совершенствования данных

У Колумбийского университета есть хорошая история о плохих данных. Проект в сфере здравоохранения был нацелен на снижение затрат на лечение пациентов с пневмонией. В нём использовалось машинное обучение (machine learning, ML) для автоматической сортировки записей пациентов, чтобы выбрать тех, у кого опасность смертельного исхода минимальна (они могут принимать антибиотики дома), и тех, у кого опасность смертельного исхода высока (их нужно лечить в больнице). Команда разработчиков использовала исторические данные из клиник, а алгоритм был точным.

Но за одним важным исключением. Одним из наиболее опасных состояний при пневмонии является астма, поэтому врачи всегда отправляют астматиков в отделение интенсивной терапии, что приводило к минимизации уровня смертности для этих пациентов. Благодаря отсутствию смертельных случаев у астматиков в данных алгоритм предположил, что астма не так уж опасна при пневмонии, и во всех случаях машина рекомендовала отправлять астматиков домой, несмотря на то, что для них риск осложнений при пневмонии был наибольшим.

ML сильно зависит от данных. Это самый критически важный аспект, благодаря которому и возможно обучение алгоритма; именно поэтому машинное обучение стало столь популярным в последние годы. Но вне зависимости от терабайтов информации и экспертизы в data science, если ты не можешь понять смысл записей данных, то машина будет практически бесполезной, а иногда и наносить вред.

Читать: https://habr.com/ru/post/684580/

👍6🔥1

972 views08:38

Data Analysis / Big Data

Detect and process sensitive data using AWS Glue Studio

Read: https://aws.amazon.com/blogs/big-data/detect-and-process-sensitive-data-using-aws-glue-studio/

👍1

757 views17:36

Data Analysis / Big Data

5 этапов оптического распознавания символов на практике

Распознавание символов довольно сложная задача для компьютера. А сегодня в ней всё больше необходимости, ведь автоматизация обработки различных документов и данных ускоряет решение многих вопросов. Например, в системах банкинга, которые таким образом могут ускорить одобрение кредита или выполнение иной услуги.

В этой статье вы узнаете, как разработчики из Ренессанс Кредит решали эту задачу: https://tprg.ru/jnzF

👍1

816 views06:33

Data Analysis / Big Data

Everything Bagel, часть II: версионные таблицы озера данных в lakeFS и Trino

Команда VK Cloud уже переводила статью о том, как развернуть локальный стек данных с помощью инструмента Everything Bagel. Теперь переводим вторую часть, в которой на практике разбираем, как выполнять запросы к разветвленным данным lakeFS через механизм распределенных запросов Trino.

Читать: https://habr.com/ru/post/687764/

👍1

742 views07:39

Data Analysis / Big Data

Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 2)

Привет! Продолжаю рассказ про интеграционную платформу на базе Apache Kafka и про то, как мы постарались гармонично вписать ее в непростую ИТ инфраструктуру группы НЛМК.

Напомню, что в первой части статьи были описаны соглашения об именовании топиков, подход к реализации ролевой модели и соглашение по базовой схеме данных. Здесь расскажу, как сделали универсальное охлаждение для всех данных из Kafka в корпоративное хранилище на базе Hadoop, про сервис доставки сообщений в ИС и про разработанные сервисы, доступные на нашем Self-Serves портале.

Читать: https://habr.com/ru/post/686778/

👍2

791 views09:12

Data Analysis / Big Data

Подборка актуальных вакансий

— Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 3 лет

— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет

— Аналитик DWH
Где: Москва, можно удалённо
Опыт: от 3 лет

— Системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет

— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет

#вакансии #работа

👍1

757 views11:00

Data Analysis / Big Data

Design considerations for Amazon EMR on EKS in a multi-tenant Amazon EKS environment

Read: https://aws.amazon.com/blogs/big-data/design-considerations-for-amazon-emr-on-eks-in-a-multi-tenant-amazon-eks-environment/

👍2

765 views16:05

Data Analysis / Big Data

Talk to your data: Query your data lake with Amazon QuickSight Q

Read: https://aws.amazon.com/blogs/big-data/talk-to-your-data-query-your-data-lake-with-amazon-quicksight-q/

👍1

766 views16:15

Data Analysis / Big Data

Super Protocol: трансформирует облачные вычисления для Web3

Super Protocol — это платформа конфиденциальных облачных вычислений, предназначенная для защиты данных во время их обработки. Это децентрализованная платформа на блокчейне, что означает, что ей не присущи недостатки при использовании централизованных сервисов.

В этой статье я постараюсь рассказать о Super Protocol и о том, какие задачи он позволяет решать.

Современное состояние облачных вычислений

Облачные вычисления - это предоставление вычислительной мощности (серверов, памяти, баз данных, сетей и ПО) посредством Интернет в целях аренды (как сервис). Облачные провайдеры позволяют компаниям и индивидуальным пользователям расширить их вычислительные способности. С такого рода сервисами пользователи могут хранить больше информации в облачных хранилищах, обрабатывать больше данных и использовать ПО как сервис (SaaS).

На текущий момент облачные вычисления используются повсеместно: онлайн-переводчики, онлайн-игры, платежные сервисы, видео коммуникации, сервисы навигации, онлайн-библиотеки, онлайн-почта, хранилища данных и многое другое.

За 2020 год рынок облачных вычислений вырос до $371,4 млрд. и продолжает свой бурный рост. Каждый год потребность в облачных вычислениях растет и также она растет в сфере технологий WEB 3.0. К 2025 году рынок может достичь оценки $832,1 млрд., со среднегодовым приростом в 17,5%.

В то же самое время облачные вычисления имеют ряд недостатков, которые призван устранить Super Protocol.

Недостатки централизованный сервисов, предоставляющих облачные вычисления

Читать: https://habr.com/ru/post/689120/

👍1

759 views06:08

Data Analysis / Big Data

OpenAI решили распознавание речи! Разбираемся так ли это…

Вчера OpenAI выпустили Whisper. По сути они просто опубликовали веса набора больших (и не очень) рекуррентных трансформеров для распознавания речи и статью (и самое главное, в статье ни слова про compute и ресурсы). И естественно уже вчера и сегодня утром мне в личку начали сыпаться сообщения, мол всё, распознавание речи решено, все идеально классно и быстро работает, расходимся.

Постараемся разобраться под катом. Короткий ответ, если вам лень читать - для языков, кроме английского, скорее всего это далеко от правды (проверил я на русском). На английском наверное стоит сделать отдельный и чуть более подробный разбор, если эта статья наберет хотя бы 50 плюсов.
Итак, поехали!

Читать: https://habr.com/ru/post/689572/

❤2👎1

757 views08:58

Data Analysis / Big Data

Как мы строим свою платформу для аналитиков

Привет, с вами снова Галина Вакулина, и в этой статье я расскажу, как мы строим платформу для аналитиков и избавляем их от ненужной работы.

Цель нашей команды — сделать так, чтобы в Точке работать с данными было удобно и быстро. Чем меньше времени аналитик тратит на рутину, тем больше времени у него остаётся на исследования, придумывание новых метрик, построение дашбордов, проверку гипотез и просто захватывающее копание в данных.

Читать: https://habr.com/ru/post/689140/

👍2

746 views11:47

Data Analysis / Big Data

Потери данных при репликации в аналитическое хранилище — автоматические сверки и мониторинг качества данных

Данные из боевых баз в нашей архитектуре асинхронно попадают в аналитическое хранилище (Clickhouse), где уже аналитики создают дашборды для продуктовых команд и делают выборки. Базы здоровые и под ощутимой нагрузкой: мы в день отправляем флот самолётов средней авиакомпании, несколько поездов и кучу автобусов. Поэтому взаимодействий с продуктом много.

ETL-процесс (извлечение данных, трансформация и загрузка в хранилище) часто подразумевает сложную логику переноса данных, и изначально нет уверенности в том, что данные доставляются без потерь и ошибок. Мы используем Kafka как шину данных, промежуточные сервисы на Benthos для трансформации записей и отправки в Clickhouse. На этапе создания пайплайна нужно было убедиться в отсутствии потерь с нашей стороны и корректной логике записи в шину данных.

Проверять вручную расхождения каждый раз не хотелось, кроме того мы нуждались в сервисе, который умел бы сверять новые данные по расписанию и показывать наглядно, где и какие имеются расхождения. Поэтому мы сделали сервис сверок, о котором я и расскажу, потому что готовых решений не нашёл.

Читать: https://habr.com/ru/post/689224/

👍1

810 views12:02

Data Analysis / Big Data

Enable self-service visual data integration and analysis for fund performance using AWS Glue Studio and Amazon QuickSight

Read: https://aws.amazon.com/blogs/big-data/enable-self-service-visual-data-integration-and-analysis-for-fund-performance-using-aws-glue-studio-and-amazon-quicksight/

👍1

830 views16:53

Data Analysis / Big Data

Critics, stories, and ethics

Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/09/critics-stories-and-ethics.html

👍1

852 views13:23

Data Analysis / Big Data

Upgrade Amazon EMR Hive Metastore from 5.X to 6.X

Read: https://aws.amazon.com/blogs/big-data/upgrade-amazon-emr-hive-metastore-from-5-x-to-6-x/