Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.81K subscribers
570 photos
3 videos
2 files
2.93K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Тренды e-commerce против реальности: какие прогнозы сбылись, а какие — нет

Каждый год эксперты дают прогнозы, куда пойдет e-com. Например, в 2015 году они видели будущее электронной коммерции в виртуальной реальности и делали ставку на Big Data.

Мы нашли на Хабре несколько любопытных прогнозов и оценили, какие из них стали реальностью, а какие остались фантастикой.


Читать: https://habr.com/ru/post/654323/
Trigger an AWS Glue DataBrew job based on an event generated from another DataBrew job

Read: https://aws.amazon.com/blogs/big-data/trigger-an-aws-glue-databrew-job-based-on-an-event-generated-from-another-databrew-job/
Automate your validated dataset deployment using Amazon QuickSight and AWS CloudFormation

Read: https://aws.amazon.com/blogs/big-data/automate-your-validated-dataset-deployment-using-amazon-quicksight-and-aws-cloudformation/
Как с помощью Python создать полностью автоматизированную трейдинговую систему на базе ИИ

Можно ли с помощью ИИ автоматизировать набор правил, по которым действуют на бирже профессиональные трейдеры? Команда VK Cloud Solutions перевела статью о том, как это удалось реализовать и что вышло из такой затеи.


Читать: https://habr.com/ru/post/669462/
Использование хеш-значений с обработкой коллизий в качестве суррогатных ключей в справочниках DWH

Общеизвестно, что в хранилищах данных для связи таблиц фактов со справочниками используются суррогатные ключи. В большинстве случаев это целочисленный счетчик, который взаимно однозначно определяет бизнес ключ (или бизнес ключ плюс зависимость от времени для медленно меняющихся справочников). С увеличением объемов обрабатываемой информации в случае большой кардинальности справочников использование счетчиков в качестве суррогатных ключей становится проблемой с точки зрения производительности, т.к. при загрузке фактов необходимо определить значение суррогатного ключа по довольно большому справочнику. Для решения этой проблемы многие компании переходят на формирование суррогатных значений на основе хеш-значений бизнес-ключей.


Читать: https://habr.com/ru/post/669510/
👍2
Как мы участвовали в чемпионате по DS длиной 3.5 месяца

В марте 2021 года HeadHunter купил портал Dream Job и позже дополнительно встроил интерфейс оценки работодателя на свой сайт. Видимо, количество отзывов резко увеличилось настолько, что их стало сложно обрабатывать в ручном режиме. В результате, задача модерации отзывов была переведена в термины классификации и организован чемпионат на платформе Boosters для решения этой задачи.

Соревнования по анализу данных, в которых целевую переменную можно разметить ручками, принято проводить в Docker-формате. Однако, соревнование длилось 3,5 месяца и в целях учета интересов как организаторов, так и участников, проходило в 3 этапа. В соревновании участвовала команда лаборатории машинного обучения Альфа-Банка: я, Андрей Сон — специалист по интеллектуальному анализу данных, и Женя Смирнов — руководитель лаборатории.

Мы заняли второе место, чуть не дотянув до первого — разрыв составлял 0.0001 метрики. Дальше подробно расскажем, что происходило на каждом этапе, какие перед нами стояли задачи и как мы их решали.


Читать: https://habr.com/ru/post/669522/
A serverless operational data lake for retail with AWS Glue, Amazon Kinesis Data Streams, Amazon DynamoDB, and Amazon QuickSight

Read: https://aws.amazon.com/blogs/big-data/a-serverless-operational-data-lake-for-retail-with-aws-glue-amazon-kinesis-data-streams-amazon-dynamodb-and-amazon-quicksight/
Подготовили для вас подборки полезной информации по различным направлениям

— для веб-разработчиков: @tproger_web;
— любителям Java: @a_cup_of_java;
— всё о нейросетях: @neuro_channel;
— нужные инструменты для разработчиков: @prog_tools.

Выбирайте, что вам интересно, переходите по ссылке и жмите на закреп. И не забудьте подписаться — там ещё много всего интересного!
Ручное аннотирование по-прежнему незаменимо для разработки моделей глубокого обучения

Не подлежит сомнению, что высококачественные размеченные массивы данных играют критичную роль в разработке новых алгоритмов глубокого обучения. Однако понимание ML и глубокого обучения по-прежнему остаётся в зачаточном состоянии. Именно поэтому команды прикладного ML и исследований ML нашей компании совместно трудятся над пониманием последних исследований в сфере ML, пытаясь разобраться, как мы можем преодолеть одну из самых больших сложностей в современной разработке ИИ, как у наших клиентов, так и для отрасли в целом.

Недавно наша команда исследователей провела глубокий анализ состояния данных в области компьютерного зрения. Исследовательская статья, одобренная для Human-in-the-Loop Learning Workshop на ICML 2021, показала, что высококачественная разметка по-прежнему остаётся незаменимой для разработки точных моделей глубокого обучения.


Читать: https://habr.com/ru/post/665384/
👍2
Apache NiFi: как решить ошибки, которые не гуглятся

Настройка и запуск Apache NiFi и Zookeeper, настройка авторизации по LDAP и работа NiFi по HTTPS, настройка и запуск Apache NiFi Registry, пример запуска NiFi c Kerberos — вот темы, которые будут в этой статье.
Не вижу смысла полностью рассказывать, как настраивать NiFi и NiFi Registry — есть официальная документация и мануалы в сети. Я сосредоточился на ошибках, информации по которым нет, в том числе и на английском. При самостоятельном поиске решения, это реально масса времени. Я провел месяцы в режиме DEBUG и TRACE, чтобы понять, как всё сделать правильно. Готов поделится.


Читать: https://habr.com/ru/post/669812/
👍1
Введение в dbt шаг за шагом

Привет, Хабр!

Меня зовут Марк Порошин, в DV Group я занимаюсь Data Science. Мы работаем с большим количеством данных, на данный момент приближаемся к 10тб данных на нашем кластере Greenplum. Источники данных постоянно дополняются, а их структура меняется, поэтому в качестве методологии построения хранилища мы выбрали DataVault. Для автоматизации трансформации данных решили использовать dbt, о котором я хочу рассказать в данной статье.


Читать: https://habr.com/ru/post/670062/
👍1
Генерация меток для обучения модели при помощи слабого контроля

Компаниям сложно следить за всеми новостями и мнениями о них в социальных сетях; существует огромное множество потенциально релевантных постов, и их фильтрация заняла бы много времени. Новый продукт Borealis AI был создан для решения этой проблемы путём извлечения в реальном времени информации социальных сетей, распознавания тематики и добавления метки для каждого поста с обозначением его типа. Например, пост может быть помечен как «пресс-релиз», «обзор пользователя» или «шум». Такие метки позволяют пользователям находить более чистые подмножества постов в соцсетях, которые им интересны.

Чтобы создать модель машинного обучения для классификации постов по таким категориям, необходимо получить высококачественные размеченные данные обучения. Иными словами, нам нужны примеры постов в социальных сетях, которые вручную размечены как пресс-релизы или обзоры пользователей, чтобы модель могла учиться тому, как распознавать новые примеры того же типа.


Читать: https://habr.com/ru/post/654621/
Как обучить нейросеть, если разметка данных стоит как самолет

Искусственный интеллект все чаще используется в медицинских целях, в частности для анализа медицинских изображений. Процесс создания качественной и эффективной нейросети долгий и дорогой. Более того, данных для обучения зачастую недостаточно.

Именно по этим причинам мы решили исследовать различные подходы, которые могли бы помочь сократить число необходимых аннотированных данных для получения модели того же качества. Это может позволить не только сократить время и расходы на аннотацию, но и ускорить цикл поставки новых моделей.

В результате нашего исследования, мы нашли лучший подход, который помог сохранить точность работы алгоритма при использовании лишь 20% разметки.
Магия - нет, расскажем подробнее…


Читать: https://habr.com/ru/post/670342/
Build a multilingual dashboard with Amazon Athena and Amazon QuickSight

Read: https://aws.amazon.com/blogs/big-data/build-a-multilingual-dashboard-with-amazon-athena-and-amazon-quicksight/
👍1
[recovery mode] Осваиваем китайский BI. Как построить дашборд в FineBI всего за 1 час

За последние несколько месяцев многие из нас вынужденно расширили представления об азиатской ИТ-отрасли. Оказалось, что, к примеру, в Китае выпускают не только смартфоны, умные роботы-пылесосы и телевизоры, но и разнообразные программные продукты, которых нам после ухода европейских и американских вендоров не хватает. Открытием стало и то, что многие ИТ-решения вполне конкурентоспособны, их интерфейс более чем дружелюбен. К тому же для работы в них знания иероглифов не нужно – вполне достаточно английского.
Наша компания специализируется на бизнес-аналитике, поэтому мы изучили то, что предлагает Китай в этом сегменте и остановили свой выбор (по крайней мере пока) на платформе для self service BI-анализа – FineBI.
Чтобы показать, как работает этот инструмент, расскажу, как построить с его помощью дэшборд. Для этого понадобится всего лишь час времени – даже если раньше с этим решением никогда не сталкивались.
Подключение к данным
Начинаем с главного – подключение и обработка данных. Для старта необходимо открыть вкладку Data Preparation. Она содержит ряд папок, в которых (организованных по аналогии с каталогами Windows) можно создать подключения, предварительно разделив их на смысловые блоки.

Нажав Add a group, можно сгруппировать данные. Например, можно выделить данные для презентации, продуктивные и тестовые данные и т.д. Соответственно, выбрав определенную папку, можно изучить данные, находящиеся в ней – ничего нестандартного. В моем случае в каталоге Superstore – 3 загруженных файла Excel. И датасет, который получим после обработки данных.


Читать: https://habr.com/ru/post/670528/
👍1
Как эффективно оптимизировать нагрузку на кластер ClickHouse без сложных решений. Опыт исследовательской компании

Данными Mediascope ежедневно пользуется большинство участников медиарекламного рынка и каждый день наши клиенты совершают множество запросов как к самим данным, так и к нашим сервисам расчета и анализа медиапоказателей. Поэтому нам нередко приходится решать самые разные задачи, связанные с оптимизацией нагрузки на инфраструктуру. В этой статье вы найдете интересный кейс управления нагрузкой на кластер ClickHouse (CH), который решили внутри Mediascope. Команда нашего отдела разработки систем расчета и доставки прошла большой путь: от неуместного применения МL до простого, но рабочего решения.


Читать: https://habr.com/ru/post/670560/
Как мы заняли 1-е место в задаче Matching в соревновании Data Fusion Contest 2022, или как нейронка обогнала бустинг

На платформе ods.ai прошло  соревнование по машинному обучению Data Fusion Contest 2022 от банка ВТБ (https://ods.ai/tracks/data-fusion-2022-competitions ).

Мы, команда Лаборатории ИИ Сбера и Института искусственного интеллекта AIRI, приняли решение поучаствовать в контесте, когда увидели, что  тема соревнования сильно пересекалась с нашими исследованиями. В итоге у нас неплохо получилось. Мы заняли первое место на private leaderboard в основной задаче. Здесь я хотел бы описать решение, которое привело нас к победе.

В рамках соревнования предлагались: датасет, содержащий транзакции, совершенные клиентами ВТБ по банковским картам, кликстрим (данные о посещении web-страниц) клиентов Ростелекома и разметка соответствия между клиентами из этих двух организаций. Соответствие устанавливается если два клиента – это один и тот же человек. Все данные были обезличены, а сами датасеты синтезированы на основе реальных данных таким образом, чтобы сохранить информацию о поведении пользователей.

В программу мероприятия входило пять задач разной сложности с разным призовым фондом. Мы решили сосредоточится на главной задаче Matching (https://ods.ai/tracks/data-fusion-2022-competitions/competitions/data-fusion2022-main-challenge ), как на самой сложной и самой интересной.


Читать: https://habr.com/ru/post/670572/
👍2
Simplify and optimize Python package management for AWS Glue PySpark jobs with AWS CodeArtifact

Read: https://aws.amazon.com/blogs/big-data/simplify-and-optimize-python-package-management-for-aws-glue-pyspark-jobs-with-aws-codeartifact/
Выбор кадастрового инженера с помощью Data Science

Закончивался 1 квартал 2020 года, ажиотаж вокруг пандемии ковид в РФ был на своем пике. Симптоматика первых переболевших показывала, что даже в случае относительно легко перенесенной болезни вопрос реабилитации и восстановления работоспособности (в том числе и психологическо-когнитивной) - встает на первое место. И мы наконец-то решили "Хватит сидеть, пора делать свое дело. Если не сейчас, то когда?!". В условиях повсеместной удаленки нашли иностранного профильного партнера-инвестора и разработали адаптированный к РФ концепт клиники/пансионата по реабилитации пациентов после перенесенного COVID-19.

Ключевым риском для инвесторов была возможная скорость реализации проекта (после пандемии предполагалась реконцепция клиники в многопрофильный реабилитационный центр - а это существенно большие инвестиции и сроки окупаемости) - поэтому было важно стартовать как можно быстрее. Команда проекта была преисполнена энтузиазма, готова соинвестировать и мы договорились с инвесторами, что основной транш инвестиций пойдет не на стройку, а на расширение и оборудование приобретенных командой площадей.

Мы достаточно быстро нашли несколько подходящих объектов в Московской области, но самым интересным показался объект, реализуемый Агентством по Страхованию Вкладов в рамках банкротство одного из банков РФ. Взвесив все "за" и "против", мы приняли решение об участии в публичных торгах и выкупили объект. Окрыленные победой на торгах, мы быстро заключили ДКП, произвели оплату и подали документы в Росреестр на регистрацию сделки. Не ожидая никаких подвохов с регистрацией (все-таки продавец - АСВ, торги - публичные, имущество - банковское) мы сразу же начали переговоры с подрядчиками по реновации и строительству. Как же мы ошибались...


Читать: https://habr.com/ru/post/670760/