NEW BOT Телеграм, страница

Data Analysis / Big Data

Как мы обучали категоризатор фискальных чеков DataCheckEngine

Задача актуальна для фин. организаций и ретейла. Расскажем, как мы подошли к ней и почему выбрали для обучения уменьшенную версию модели DistilBert.

Читать: https://habr.com/ru/post/677858/

👍2

698 views09:06

Data Analysis / Big Data

Data Quality: новые правила

В нашем мире проблемы с данными делятся на два типа: предсказуемые (известные неизвестные) и непредсказуемые (неизвестные неизвестные). Вот какой комплексный подход применяют лучшие специалисты по работе с данными для решения этих проблем в крупномасштабных системах. Команда VK Cloud Solutions перевела статью о новых способах повышения качества данных с помощью тестирования и наблюдаемости (observability).

Читать: https://habr.com/ru/post/674830/

👍2

734 views10:28

Data Analysis / Big Data

В Китае внедрили суд ИИ. Или нет?

С такими заголовками вышли десятки публикаций в российском интернете. Может показаться, что в КНР создали искусственный интеллект, который рассматривает дела и выносит приговоры. Прямо как с новостями о китайском социальном рейтинге, которого нет. Так что же с ИИ в китайском суде?

Читать: https://habr.com/ru/post/677920/

👍2🤬1

744 views11:09

Data Analysis / Big Data

Какой ты аналитик?

Холмс, Фрейд или Аристотель: определяем, на кого из известных аналитиков вы похожи.

Читать: «Какой ты аналитик?»

😁4

883 views11:41

Data Analysis / Big Data

Predicting invariables

Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/07/predicting-invariables.html

👍2

809 views13:17

Data Analysis / Big Data

Integrate Amazon Redshift row-level security with Amazon Redshift native IdP authentication

Read: https://aws.amazon.com/blogs/big-data/integrate-amazon-redshift-row-level-security-with-amazon-redshift-native-idp-authentication/

👍2

819 views15:28

Data Analysis / Big Data

Stream Amazon EMR on EKS logs to third-party providers like Splunk, Amazon OpenSearch Service, or other log aggregators

Read: https://aws.amazon.com/blogs/big-data/stream-amazon-emr-on-eks-logs-to-third-party-providers-like-splunk-amazon-opensearch-service-or-other-log-aggregators/

👍2

780 views15:32

Data Analysis / Big Data

Simplify analytics on Amazon Redshift using PIVOT and UNPIVOT

Read: https://aws.amazon.com/blogs/big-data/simplify-analytics-on-amazon-redshift-using-pivot-and-unpivot/

🔥2

740 views18:09

Data Analysis / Big Data

Путь к “сердцу заказчика”, или Как мы редизайнили дашборды у топового банка России

Многие компании в РФ сегодня уже далеко не новички в сфере BI. За последние несколько лет технология активно распространилась в нашей стране, дашборды и ad-hoc-визуализации стали активно использовать при принятии решений в самых разных индустриях и направлениях. В этой статье мы, команда Business Intelligence Glowbyte, хотим рассказать о случае из личного опыта на проекте с банком топ-5 России, а именно о том, как наша команда решила проблему неэффективного использования прогрессивного инструмента бизнес-отчетности.

Читать: https://habr.com/ru/post/678326/

👍3

694 views10:18

Data Analysis / Big Data

«Звезда» — оптимальная структура данных при переходе на российский BI

Бизнес-аналитика — интереснейшее направление работы с данными. С одной стороны пользователи хотят видеть красивые дашборды и простые self-service платформы, а с другой стороны, для организации всего этого порой требуется колоссальная работа по организации витрин, моделей данных, оптимизации запросов, а вместе с этим — мощный сервер для переработки миллиардов записей. В этом посте я расскажу о том, почему для работы с BI сегодня как никогда актуальна такая модель данных как “Звезда”, и как ее использование помогает улучшать эффективность бизнес-аналитики на любых BI-платформах.

Читать: https://habr.com/ru/post/678346/

👍2

686 views10:51

Data Analysis / Big Data

Новости Data Science: факт-чек Википедии при помощи Sphere, обучение AI-геймингу, обложка для Cosmopolitan и кое-что еще

Привет, Хабр! Сегодня поговорим о новостях из мира Data Science. За пару последних месяцев как отечественные, так и зарубежные компании представили много всего интересного. Отличились и студенты, обучающиеся профессии «Data Scientist Pro», — они разработали нейросеть, которая написала сценарий для сериала СТС «Сидоровы».

Но есть и другие новости из мира машинного обучения и нейросетей. Так, мы изучили новинки и выбрали несколько, на наш взгляд, самых любопытных проектов. Понятно, что подборка субъективная, но интересна она будет самому широкому кругу читателей, связанных с Data Science. Если у вас есть что добавить, то расскажите в комментариях — обсудим.

Читать: https://habr.com/ru/post/678356/

👍3

711 views11:46

Data Analysis / Big Data

Как и почему мы внедрили Greenplum в КХД

Привет, Хабр! Меня зовут Максим Солопин, в Росбанке я работаю архитектором корпоративного хранилища данных. В этом посте я расскажу о том, как мы переезжали из data lake, куда ежедневно сваливались все сырые данные, в удобную систему на основе Greenplum. А по дороге немного затрону развитие моделей корпоративных хранилищ данных.

Читать: https://habr.com/ru/post/678646/

👍3

716 views12:52

Data Analysis / Big Data

Data Engineering Weekly #94

Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-94

👍2

686 views19:28

Data Analysis / Big Data

Дашборды и прибыль: как посчитать всё не только правильно, но и красиво

Привет! Как мы уже не раз рассказывали, СИБУР поделен на несколько сквозных процессов. Сквозные процессы – это бизнес-домены, которые объединяют в себе бизнес-команды одной сферы. У нас таких много, но конкретно этот пост будет посвящён дашбордам для O2C.

В случае O2C – это также сквозной процесс, который расшифровывается как Order to cash. Он отвечает за привлечение новых клиентов и получение прибыли. Кроме того, такой подход помогает перестраивать бизнес-процессы на предприятии и способствует активной цифровизации производственных процессов.

Сегодня использование O2C напрямую связано с промышленной цифровизацией. Постепенно все, начиная от поиска лидов и сопровождения сделок, заканчивая непосредственно продажами, передачей права собственности, когда бухгалтерия контрагента расписалась в акте, перестраивается на автоматический режим.

O2C как бизнес состоит из нескольких больших подразделений, эти же подразделения являются как потребителями данных, так и основными генераторами идей, все-таки стараемся работать в продуктовом подходе и учитывать хотелки всех и вся, как минимум внутри O2C.

Читать: https://habr.com/ru/post/678036/

👍2

694 views07:11

Data Analysis / Big Data

Разметка данных в машинном обучении: процесс, разновидности и рекомендации

Когда люди слышат про искусственный интеллект, глубокое обучение и машинное обучение, многие представляют роботов из фильмов, интеллект которых сравним или даже превосходит интеллект человека. Другие считают, что такие машины просто потребляют информацию и учатся на ней самостоятельно. Но на самом деле это далеко от истины: без человеческой помощи возможности компьютерных систем ограничены, и чтобы они стали «умными», необходима разметка данных.

В этой статье мы расскажем, что такое разметка данных, как она работает, о типах разметки данных и о рекомендациях, позволяющих сделать этот процесс беспроблемным.

Читать: https://habr.com/ru/post/678524/

👍2

684 views08:04

Data Analysis / Big Data

Process Apache Hudi, Delta Lake, Apache Iceberg dataset at scale, part 2: Using AWS Glue Studio Visual Editor

Read: https://aws.amazon.com/blogs/big-data/part-2-integrate-apache-hudi-delta-lake-apache-iceberg-dataset-at-scale-using-aws-glue-studio-visual-editor/

👍2

652 views18:12

Data Analysis / Big Data

Получил доступ к Dalle-2. Вы не поверите, что может нарисовать машина… Дизайнеры больше не нужны

Текст генерации: furry monster with green eyes looking at us, the word «habrahabr» in the background, digital art, blue background, 3d

Привет, чемпион!

Недавно мне посчастливилось стать обладателем доступа к API Dalle-2. Если ты ещё не слышал про Dalle, то это такая CLIP-архитектура, обученная на огромном корпусе пар текст-изображение. Иначе говоря — она умеет генерировать очень качественные изображения из текста. Отличить результаты генерации от рисунков человека иногда просто невозможно! Это одновременно впечатляет и в то же время — немного шокирует.

По сравнению с предыдущей версией — DALL-E 2 умеет генерировать изображения в более высоком разрешении (1024×1024 пикселей, что в 16 раз превышает разрешение в предыдущей версии модели) да ещё и намного быстрее. Более того, DALL-E 2 позволяет редактировать уже существующие изображения.

Нет больше терпения ждать, давайте же опробуем её!

Читать: https://habr.com/ru/post/678876/

👍3

625 views09:03

Data Analysis / Big Data

CDC и логическая репликация для баз данных, реализованных на стеке open source-решений

Привет, Хабр! На связи СберТех — мы создаём Platform V, цифровую платформу Сбера для разработки бизнес-приложений.

В платформу входит более 60 продуктов на базе собственных сборок open source, доработанных до уровня enterprise по функциональности, безопасности, производительности и отказоустойчивости.

В этой статье расскажем про реализацию паттерна Change Data Capture и межкластерной репликации данных в продукте Platform V DataGrid, распределённой in-memory базе данных для высокопроизводительных вычислений. А также об особенностях внедрения функции и вариантах репликации. Написать материал помог наш коллега Николай Ижиков из команды по развитию баз данных на стеке open source.

Читать: https://habr.com/ru/post/679028/

🔥2

634 views10:04

Data Analysis / Big Data

How SumUp built a low-latency feature store using Amazon EMR and Amazon Keyspaces

Read: https://aws.amazon.com/blogs/big-data/how-sumup-built-a-low-latency-feature-store-using-amazon-emr-and-amazon-keyspaces/

👍3

602 views19:34

Data Analysis / Big Data

Oracle enables revenue transformation with Fusion CX Analytics

Introducing Oracle Fusion CX Analytics. Fusion CX Analytics meets the need for an easy-to-use system that can help model KPIs and monitor the business through them, as well as one capable of drilling down to uncover insights in granular detail without involving IT.

Read: https://blogs.oracle.com/analytics/post/oracle-enables-revenue-transformation-with-fusion-cx-analytics

Oracle

Fusion cx analytics

Introducing Oracle Fusion CX Analytics

👍2

606 views00:29

Data Analysis / Big Data

Opening Workbooks for Viewing in Oracle Analytics.

Authors can open workbooks in either view or edit modes.

Read: https://blogs.oracle.com/analytics/post/oracle-analytics-opening-workbook-in-view-mode

Oracle

Opening Workbooks for Viewing in Oracle Analytics.

Authors can open workbooks in either view or edit modes.

👍2

595 views00:29

About

Blog

Apps

Platform