Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.82K subscribers
570 photos
3 videos
2 files
2.92K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Как мы обучали категоризатор фискальных чеков DataCheckEngine

Задача актуальна для фин. организаций и ретейла. Расскажем, как мы подошли к ней и почему выбрали для обучения уменьшенную версию модели DistilBert.


Читать: https://habr.com/ru/post/677858/
👍2
Data Quality: новые правила

В нашем мире проблемы с данными делятся на два типа: предсказуемые (известные неизвестные) и непредсказуемые (неизвестные неизвестные). Вот какой комплексный подход применяют лучшие специалисты по работе с данными для решения этих проблем в крупномасштабных системах. Команда VK Cloud Solutions перевела статью о новых способах повышения качества данных с помощью тестирования и наблюдаемости (observability).


Читать: https://habr.com/ru/post/674830/
👍2
В Китае внедрили суд ИИ. Или нет?

С такими заголовками вышли десятки публикаций в российском интернете. Может показаться, что в КНР создали искусственный интеллект, который рассматривает дела и выносит приговоры. Прямо как с новостями о китайском социальном рейтинге, которого нет. Так что же с ИИ в китайском суде?


Читать: https://habr.com/ru/post/677920/
👍2🤬1
Какой ты аналитик?

Холмс, Фрейд или Аристотель: определяем, на кого из известных аналитиков вы похожи.

Читать: «Какой ты аналитик?»
😁4
Integrate Amazon Redshift row-level security with Amazon Redshift native IdP authentication

Read: https://aws.amazon.com/blogs/big-data/integrate-amazon-redshift-row-level-security-with-amazon-redshift-native-idp-authentication/
👍2
Stream Amazon EMR on EKS logs to third-party providers like Splunk, Amazon OpenSearch Service, or other log aggregators

Read: https://aws.amazon.com/blogs/big-data/stream-amazon-emr-on-eks-logs-to-third-party-providers-like-splunk-amazon-opensearch-service-or-other-log-aggregators/
👍2
Путь к “сердцу заказчика”, или Как мы редизайнили дашборды у топового банка России

Многие компании в РФ сегодня уже далеко не новички в сфере BI. За последние несколько лет технология активно распространилась в нашей стране, дашборды и ad-hoc-визуализации стали активно использовать при принятии решений в самых разных индустриях и направлениях. В этой статье мы, команда Business Intelligence Glowbyte, хотим рассказать о случае из личного опыта на проекте с банком топ-5 России, а именно о том, как наша команда решила проблему неэффективного использования прогрессивного инструмента бизнес-отчетности.


Читать: https://habr.com/ru/post/678326/
👍3
«Звезда» — оптимальная структура данных при переходе на российский BI

Бизнес-аналитика — интереснейшее направление работы с данными. С одной стороны пользователи хотят видеть красивые дашборды и простые self-service платформы, а с другой стороны, для организации всего этого порой требуется колоссальная работа по организации витрин, моделей данных, оптимизации запросов, а вместе с этим — мощный сервер для переработки миллиардов записей. В этом посте я расскажу о том, почему для работы с BI сегодня как никогда актуальна такая модель данных как “Звезда”, и как ее использование помогает улучшать эффективность бизнес-аналитики на любых BI-платформах.


Читать: https://habr.com/ru/post/678346/
👍2
Новости Data Science: факт-чек Википедии при помощи Sphere, обучение AI-геймингу, обложка для Cosmopolitan и кое-что еще

Привет, Хабр! Сегодня поговорим о новостях из мира Data Science. За пару последних  месяцев как отечественные, так и зарубежные компании представили много всего интересного. Отличились и студенты, обучающиеся профессии «Data Scientist Pro», — они разработали нейросеть, которая написала сценарий для сериала СТС «Сидоровы».

Но есть и другие новости из мира машинного обучения и нейросетей. Так, мы изучили новинки и выбрали несколько, на наш взгляд, самых любопытных проектов. Понятно, что подборка субъективная, но интересна она будет самому широкому кругу читателей, связанных с Data Science. Если у вас есть что добавить, то расскажите в комментариях — обсудим.


Читать: https://habr.com/ru/post/678356/
👍3
Как и почему мы внедрили Greenplum в КХД

Привет, Хабр! Меня зовут Максим Солопин, в Росбанке я работаю архитектором корпоративного хранилища данных. В этом посте я расскажу о том, как мы переезжали из data lake, куда ежедневно сваливались все сырые данные, в удобную систему на основе Greenplum. А по дороге немного затрону развитие моделей корпоративных хранилищ данных.


Читать: https://habr.com/ru/post/678646/
👍3
Дашборды и прибыль: как посчитать всё не только правильно, но и красиво

Привет! Как мы уже не раз рассказывали, СИБУР поделен на несколько сквозных процессов. Сквозные процессы – это бизнес-домены, которые объединяют в себе бизнес-команды одной сферы. У нас таких много, но конкретно этот пост будет посвящён дашбордам для O2C.

В случае O2C – это также сквозной процесс, который расшифровывается как Order to cash. Он отвечает за привлечение новых клиентов и получение прибыли. Кроме того, такой подход помогает перестраивать бизнес-процессы на предприятии и способствует активной цифровизации производственных процессов.

Сегодня использование O2C напрямую связано с промышленной цифровизацией. Постепенно все, начиная от поиска лидов и сопровождения сделок, заканчивая непосредственно продажами, передачей права собственности, когда бухгалтерия контрагента расписалась в акте, перестраивается на автоматический режим.

O2C как бизнес состоит из нескольких больших подразделений, эти же подразделения являются как потребителями данных, так и основными генераторами идей, все-таки стараемся работать в продуктовом подходе и учитывать хотелки всех и вся, как минимум внутри O2C.


Читать: https://habr.com/ru/post/678036/
👍2
Разметка данных в машинном обучении: процесс, разновидности и рекомендации

Когда люди слышат про искусственный интеллект, глубокое обучение и машинное обучение, многие представляют роботов из фильмов, интеллект которых сравним или даже превосходит интеллект человека. Другие считают, что такие машины просто потребляют информацию и учатся на ней самостоятельно. Но на самом деле это далеко от истины: без человеческой помощи возможности компьютерных систем ограничены, и чтобы они стали «умными», необходима разметка данных.

В этой статье мы расскажем, что такое разметка данных, как она работает, о типах разметки данных и о рекомендациях, позволяющих сделать этот процесс беспроблемным.


Читать: https://habr.com/ru/post/678524/
👍2
Process Apache Hudi, Delta Lake, Apache Iceberg dataset at scale, part 2: Using AWS Glue Studio Visual Editor

Read: https://aws.amazon.com/blogs/big-data/part-2-integrate-apache-hudi-delta-lake-apache-iceberg-dataset-at-scale-using-aws-glue-studio-visual-editor/
👍2
Получил доступ к Dalle-2. Вы не поверите, что может нарисовать машина… Дизайнеры больше не нужны


Текст генерации: furry monster with green eyes looking at us, the word «habrahabr» in the background, digital art, blue background, 3d

Привет, чемпион!

Недавно мне посчастливилось стать обладателем доступа к API Dalle-2. Если ты ещё не слышал про Dalle, то это такая CLIP-архитектура, обученная на огромном корпусе пар текст-изображение. Иначе говоря — она умеет генерировать очень качественные изображения из текста. Отличить результаты генерации от рисунков человека иногда просто невозможно! Это одновременно впечатляет и в то же время — немного шокирует.

По сравнению с предыдущей версией — DALL-E 2 умеет генерировать изображения в более высоком разрешении (1024×1024 пикселей, что в 16 раз превышает разрешение в предыдущей версии модели) да ещё и намного быстрее. Более того, DALL-E 2 позволяет редактировать уже существующие изображения.

Нет больше терпения ждать, давайте же опробуем её!


Читать: https://habr.com/ru/post/678876/
👍3
CDC и логическая репликация для баз данных, реализованных на стеке open source-решений

Привет, Хабр! На связи СберТех — мы создаём Platform V, цифровую платформу Сбера для разработки бизнес-приложений.

В платформу входит более 60 продуктов на базе собственных сборок open source, доработанных до уровня enterprise по функциональности, безопасности, производительности и отказоустойчивости.

В этой статье расскажем про реализацию паттерна Change Data Capture и межкластерной репликации данных в продукте Platform V DataGrid, распределённой in-memory базе данных для высокопроизводительных вычислений. А также об особенностях внедрения функции и вариантах репликации. Написать материал помог наш коллега Николай Ижиков из команды по развитию баз данных на стеке open source.


Читать: https://habr.com/ru/post/679028/
🔥2
How SumUp built a low-latency feature store using Amazon EMR and Amazon Keyspaces

Read: https://aws.amazon.com/blogs/big-data/how-sumup-built-a-low-latency-feature-store-using-amazon-emr-and-amazon-keyspaces/
👍3
Oracle enables revenue transformation with Fusion CX Analytics

Introducing Oracle Fusion CX Analytics. Fusion CX Analytics meets the need for an easy-to-use system that can help model KPIs and monitor the business through them, as well as one capable of drilling down to uncover insights in granular detail without involving IT.

Read: https://blogs.oracle.com/analytics/post/oracle-enables-revenue-transformation-with-fusion-cx-analytics
👍2