NEW BOT Телеграм, страница

Data Analysis / Big Data

Тренды e-commerce против реальности: какие прогнозы сбылись, а какие — нет

Каждый год эксперты дают прогнозы, куда пойдет e-com. Например, в 2015 году они видели будущее электронной коммерции в виртуальной реальности и делали ставку на Big Data.

Мы нашли на Хабре несколько любопытных прогнозов и оценили, какие из них стали реальностью, а какие остались фантастикой.

Читать: https://habr.com/ru/post/654323/

647 views14:04

Data Analysis / Big Data

Trigger an AWS Glue DataBrew job based on an event generated from another DataBrew job

Read: https://aws.amazon.com/blogs/big-data/trigger-an-aws-glue-databrew-job-based-on-an-event-generated-from-another-databrew-job/

650 views18:04

Data Analysis / Big Data

Automate your validated dataset deployment using Amazon QuickSight and AWS CloudFormation

Read: https://aws.amazon.com/blogs/big-data/automate-your-validated-dataset-deployment-using-amazon-quicksight-and-aws-cloudformation/

679 views18:08

Data Analysis / Big Data

Как с помощью Python создать полностью автоматизированную трейдинговую систему на базе ИИ

Можно ли с помощью ИИ автоматизировать набор правил, по которым действуют на бирже профессиональные трейдеры? Команда VK Cloud Solutions перевела статью о том, как это удалось реализовать и что вышло из такой затеи.

Читать: https://habr.com/ru/post/669462/

713 views10:27

Data Analysis / Big Data

Использование хеш-значений с обработкой коллизий в качестве суррогатных ключей в справочниках DWH

Общеизвестно, что в хранилищах данных для связи таблиц фактов со справочниками используются суррогатные ключи. В большинстве случаев это целочисленный счетчик, который взаимно однозначно определяет бизнес ключ (или бизнес ключ плюс зависимость от времени для медленно меняющихся справочников). С увеличением объемов обрабатываемой информации в случае большой кардинальности справочников использование счетчиков в качестве суррогатных ключей становится проблемой с точки зрения производительности, т.к. при загрузке фактов необходимо определить значение суррогатного ключа по довольно большому справочнику. Для решения этой проблемы многие компании переходят на формирование суррогатных значений на основе хеш-значений бизнес-ключей.

Читать: https://habr.com/ru/post/669510/

👍2

673 views13:33

Data Analysis / Big Data

Как мы участвовали в чемпионате по DS длиной 3.5 месяца

В марте 2021 года HeadHunter купил портал Dream Job и позже дополнительно встроил интерфейс оценки работодателя на свой сайт. Видимо, количество отзывов резко увеличилось настолько, что их стало сложно обрабатывать в ручном режиме. В результате, задача модерации отзывов была переведена в термины классификации и организован чемпионат на платформе Boosters для решения этой задачи.

Соревнования по анализу данных, в которых целевую переменную можно разметить ручками, принято проводить в Docker-формате. Однако, соревнование длилось 3,5 месяца и в целях учета интересов как организаторов, так и участников, проходило в 3 этапа. В соревновании участвовала команда лаборатории машинного обучения Альфа-Банка: я, Андрей Сон — специалист по интеллектуальному анализу данных, и Женя Смирнов — руководитель лаборатории.

Мы заняли второе место, чуть не дотянув до первого — разрыв составлял 0.0001 метрики. Дальше подробно расскажем, что происходило на каждом этапе, какие перед нами стояли задачи и как мы их решали.

Читать: https://habr.com/ru/post/669522/

703 views14:59

Data Analysis / Big Data

A serverless operational data lake for retail with AWS Glue, Amazon Kinesis Data Streams, Amazon DynamoDB, and Amazon QuickSight

Read: https://aws.amazon.com/blogs/big-data/a-serverless-operational-data-lake-for-retail-with-aws-glue-amazon-kinesis-data-streams-amazon-dynamodb-and-amazon-quicksight/

712 views16:08

Data Analysis / Big Data

Подготовили для вас подборки полезной информации по различным направлениям

— для веб-разработчиков: @tproger_web;
— любителям Java: @a_cup_of_java;
— всё о нейросетях: @neuro_channel;
— нужные инструменты для разработчиков: @prog_tools.

Выбирайте, что вам интересно, переходите по ссылке и жмите на закреп. И не забудьте подписаться — там ещё много всего интересного!

748 views11:03

Data Analysis / Big Data

Ручное аннотирование по-прежнему незаменимо для разработки моделей глубокого обучения

Не подлежит сомнению, что высококачественные размеченные массивы данных играют критичную роль в разработке новых алгоритмов глубокого обучения. Однако понимание ML и глубокого обучения по-прежнему остаётся в зачаточном состоянии. Именно поэтому команды прикладного ML и исследований ML нашей компании совместно трудятся над пониманием последних исследований в сфере ML, пытаясь разобраться, как мы можем преодолеть одну из самых больших сложностей в современной разработке ИИ, как у наших клиентов, так и для отрасли в целом.

Недавно наша команда исследователей провела глубокий анализ состояния данных в области компьютерного зрения. Исследовательская статья, одобренная для Human-in-the-Loop Learning Workshop на ICML 2021, показала, что высококачественная разметка по-прежнему остаётся незаменимой для разработки точных моделей глубокого обучения.

Читать: https://habr.com/ru/post/665384/

👍2

724 views08:35

Data Analysis / Big Data

Why you must know how analytical results were obtained

Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/06/why-you-must-know-how-analytical-results-were-obtained.html

677 views17:07

Data Analysis / Big Data

Apache NiFi: как решить ошибки, которые не гуглятся

Настройка и запуск Apache NiFi и Zookeeper, настройка авторизации по LDAP и работа NiFi по HTTPS, настройка и запуск Apache NiFi Registry, пример запуска NiFi c Kerberos — вот темы, которые будут в этой статье.
Не вижу смысла полностью рассказывать, как настраивать NiFi и NiFi Registry — есть официальная документация и мануалы в сети. Я сосредоточился на ошибках, информации по которым нет, в том числе и на английском. При самостоятельном поиске решения, это реально масса времени. Я провел месяцы в режиме DEBUG и TRACE, чтобы понять, как всё сделать правильно. Готов поделится.

Читать: https://habr.com/ru/post/669812/

👍1

735 views07:15

Data Analysis / Big Data

Введение в dbt шаг за шагом

Привет, Хабр!

Меня зовут Марк Порошин, в DV Group я занимаюсь Data Science. Мы работаем с большим количеством данных, на данный момент приближаемся к 10тб данных на нашем кластере Greenplum. Источники данных постоянно дополняются, а их структура меняется, поэтому в качестве методологии построения хранилища мы выбрали DataVault. Для автоматизации трансформации данных решили использовать dbt, о котором я хочу рассказать в данной статье.

Читать: https://habr.com/ru/post/670062/

👍1

701 views10:31

Data Analysis / Big Data

Introduction to Amazon QuickSight ML Insights

Read: https://aws.amazon.com/blogs/big-data/introduction-to-amazon-quicksight-ml-insights/

649 views16:16

Data Analysis / Big Data

Генерация меток для обучения модели при помощи слабого контроля

Компаниям сложно следить за всеми новостями и мнениями о них в социальных сетях; существует огромное множество потенциально релевантных постов, и их фильтрация заняла бы много времени. Новый продукт Borealis AI был создан для решения этой проблемы путём извлечения в реальном времени информации социальных сетей, распознавания тематики и добавления метки для каждого поста с обозначением его типа. Например, пост может быть помечен как «пресс-релиз», «обзор пользователя» или «шум». Такие метки позволяют пользователям находить более чистые подмножества постов в соцсетях, которые им интересны.

Чтобы создать модель машинного обучения для классификации постов по таким категориям, необходимо получить высококачественные размеченные данные обучения. Иными словами, нам нужны примеры постов в социальных сетях, которые вручную размечены как пресс-релизы или обзоры пользователей, чтобы модель могла учиться тому, как распознавать новые примеры того же типа.

Читать: https://habr.com/ru/post/654621/

690 views08:55

Data Analysis / Big Data

Как обучить нейросеть, если разметка данных стоит как самолет

Искусственный интеллект все чаще используется в медицинских целях, в частности для анализа медицинских изображений. Процесс создания качественной и эффективной нейросети долгий и дорогой. Более того, данных для обучения зачастую недостаточно.

Именно по этим причинам мы решили исследовать различные подходы, которые могли бы помочь сократить число необходимых аннотированных данных для получения модели того же качества. Это может позволить не только сократить время и расходы на аннотацию, но и ускорить цикл поставки новых моделей.

В результате нашего исследования, мы нашли лучший подход, который помог сохранить точность работы алгоритма при использовании лишь 20% разметки.
Магия - нет, расскажем подробнее…

Читать: https://habr.com/ru/post/670342/

722 views12:02

Data Analysis / Big Data

Build a multilingual dashboard with Amazon Athena and Amazon QuickSight

Read: https://aws.amazon.com/blogs/big-data/build-a-multilingual-dashboard-with-amazon-athena-and-amazon-quicksight/

👍1

654 views19:45

Data Analysis / Big Data

[recovery mode] Осваиваем китайский BI. Как построить дашборд в FineBI всего за 1 час

За последние несколько месяцев многие из нас вынужденно расширили представления об азиатской ИТ-отрасли. Оказалось, что, к примеру, в Китае выпускают не только смартфоны, умные роботы-пылесосы и телевизоры, но и разнообразные программные продукты, которых нам после ухода европейских и американских вендоров не хватает. Открытием стало и то, что многие ИТ-решения вполне конкурентоспособны, их интерфейс более чем дружелюбен. К тому же для работы в них знания иероглифов не нужно – вполне достаточно английского.
Наша компания специализируется на бизнес-аналитике, поэтому мы изучили то, что предлагает Китай в этом сегменте и остановили свой выбор (по крайней мере пока) на платформе для self service BI-анализа – FineBI.
Чтобы показать, как работает этот инструмент, расскажу, как построить с его помощью дэшборд. Для этого понадобится всего лишь час времени – даже если раньше с этим решением никогда не сталкивались.
Подключение к данным
Начинаем с главного – подключение и обработка данных. Для старта необходимо открыть вкладку Data Preparation. Она содержит ряд папок, в которых (организованных по аналогии с каталогами Windows) можно создать подключения, предварительно разделив их на смысловые блоки.

Нажав Add a group, можно сгруппировать данные. Например, можно выделить данные для презентации, продуктивные и тестовые данные и т.д. Соответственно, выбрав определенную папку, можно изучить данные, находящиеся в ней – ничего нестандартного. В моем случае в каталоге Superstore – 3 загруженных файла Excel. И датасет, который получим после обработки данных.

Читать: https://habr.com/ru/post/670528/

👍1

667 views09:33

Data Analysis / Big Data

Как эффективно оптимизировать нагрузку на кластер ClickHouse без сложных решений. Опыт исследовательской компании

Данными Mediascope ежедневно пользуется большинство участников медиарекламного рынка и каждый день наши клиенты совершают множество запросов как к самим данным, так и к нашим сервисам расчета и анализа медиапоказателей. Поэтому нам нередко приходится решать самые разные задачи, связанные с оптимизацией нагрузки на инфраструктуру. В этой статье вы найдете интересный кейс управления нагрузкой на кластер ClickHouse (CH), который решили внутри Mediascope. Команда нашего отдела разработки систем расчета и доставки прошла большой путь: от неуместного применения МL до простого, но рабочего решения.

Читать: https://habr.com/ru/post/670560/

639 views12:07

Data Analysis / Big Data

Как мы заняли 1-е место в задаче Matching в соревновании Data Fusion Contest 2022, или как нейронка обогнала бустинг

На платформе ods.ai прошло соревнование по машинному обучению Data Fusion Contest 2022 от банка ВТБ (https://ods.ai/tracks/data-fusion-2022-competitions ).

Мы, команда Лаборатории ИИ Сбера и Института искусственного интеллекта AIRI, приняли решение поучаствовать в контесте, когда увидели, что тема соревнования сильно пересекалась с нашими исследованиями. В итоге у нас неплохо получилось. Мы заняли первое место на private leaderboard в основной задаче. Здесь я хотел бы описать решение, которое привело нас к победе.

В рамках соревнования предлагались: датасет, содержащий транзакции, совершенные клиентами ВТБ по банковским картам, кликстрим (данные о посещении web-страниц) клиентов Ростелекома и разметка соответствия между клиентами из этих двух организаций. Соответствие устанавливается если два клиента – это один и тот же человек. Все данные были обезличены, а сами датасеты синтезированы на основе реальных данных таким образом, чтобы сохранить информацию о поведении пользователей.

В программу мероприятия входило пять задач разной сложности с разным призовым фондом. Мы решили сосредоточится на главной задаче Matching (https://ods.ai/tracks/data-fusion-2022-competitions/competitions/data-fusion2022-main-challenge ), как на самой сложной и самой интересной.

Читать: https://habr.com/ru/post/670572/

👍2

670 views16:02

Data Analysis / Big Data

Simplify and optimize Python package management for AWS Glue PySpark jobs with AWS CodeArtifact

Read: https://aws.amazon.com/blogs/big-data/simplify-and-optimize-python-package-management-for-aws-glue-pyspark-jobs-with-aws-codeartifact/

622 views21:04

Data Analysis / Big Data

Выбор кадастрового инженера с помощью Data Science

Закончивался 1 квартал 2020 года, ажиотаж вокруг пандемии ковид в РФ был на своем пике. Симптоматика первых переболевших показывала, что даже в случае относительно легко перенесенной болезни вопрос реабилитации и восстановления работоспособности (в том числе и психологическо-когнитивной) - встает на первое место. И мы наконец-то решили "Хватит сидеть, пора делать свое дело. Если не сейчас, то когда?!". В условиях повсеместной удаленки нашли иностранного профильного партнера-инвестора и разработали адаптированный к РФ концепт клиники/пансионата по реабилитации пациентов после перенесенного COVID-19.

Ключевым риском для инвесторов была возможная скорость реализации проекта (после пандемии предполагалась реконцепция клиники в многопрофильный реабилитационный центр - а это существенно большие инвестиции и сроки окупаемости) - поэтому было важно стартовать как можно быстрее. Команда проекта была преисполнена энтузиазма, готова соинвестировать и мы договорились с инвесторами, что основной транш инвестиций пойдет не на стройку, а на расширение и оборудование приобретенных командой площадей.

Мы достаточно быстро нашли несколько подходящих объектов в Московской области, но самым интересным показался объект, реализуемый Агентством по Страхованию Вкладов в рамках банкротство одного из банков РФ. Взвесив все "за" и "против", мы приняли решение об участии в публичных торгах и выкупили объект. Окрыленные победой на торгах, мы быстро заключили ДКП, произвели оплату и подали документы в Росреестр на регистрацию сделки. Не ожидая никаких подвохов с регистрацией (все-таки продавец - АСВ, торги - публичные, имущество - банковское) мы сразу же начали переговоры с подрядчиками по реновации и строительству. Как же мы ошибались...

Читать: https://habr.com/ru/post/670760/

611 views09:39

About

Blog

Apps

Platform