Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.82K subscribers
570 photos
3 videos
2 files
2.92K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
«Звезда» — оптимальная структура данных при переходе на российский BI

Бизнес-аналитика — интереснейшее направление работы с данными. С одной стороны пользователи хотят видеть красивые дашборды и простые self-service платформы, а с другой стороны, для организации всего этого порой требуется колоссальная работа по организации витрин, моделей данных, оптимизации запросов, а вместе с этим — мощный сервер для переработки миллиардов записей. В этом посте я расскажу о том, почему для работы с BI сегодня как никогда актуальна такая модель данных как “Звезда”, и как ее использование помогает улучшать эффективность бизнес-аналитики на любых BI-платформах.


Читать: https://habr.com/ru/post/678346/
👍2
Новости Data Science: факт-чек Википедии при помощи Sphere, обучение AI-геймингу, обложка для Cosmopolitan и кое-что еще

Привет, Хабр! Сегодня поговорим о новостях из мира Data Science. За пару последних  месяцев как отечественные, так и зарубежные компании представили много всего интересного. Отличились и студенты, обучающиеся профессии «Data Scientist Pro», — они разработали нейросеть, которая написала сценарий для сериала СТС «Сидоровы».

Но есть и другие новости из мира машинного обучения и нейросетей. Так, мы изучили новинки и выбрали несколько, на наш взгляд, самых любопытных проектов. Понятно, что подборка субъективная, но интересна она будет самому широкому кругу читателей, связанных с Data Science. Если у вас есть что добавить, то расскажите в комментариях — обсудим.


Читать: https://habr.com/ru/post/678356/
👍3
Как и почему мы внедрили Greenplum в КХД

Привет, Хабр! Меня зовут Максим Солопин, в Росбанке я работаю архитектором корпоративного хранилища данных. В этом посте я расскажу о том, как мы переезжали из data lake, куда ежедневно сваливались все сырые данные, в удобную систему на основе Greenplum. А по дороге немного затрону развитие моделей корпоративных хранилищ данных.


Читать: https://habr.com/ru/post/678646/
👍3
Дашборды и прибыль: как посчитать всё не только правильно, но и красиво

Привет! Как мы уже не раз рассказывали, СИБУР поделен на несколько сквозных процессов. Сквозные процессы – это бизнес-домены, которые объединяют в себе бизнес-команды одной сферы. У нас таких много, но конкретно этот пост будет посвящён дашбордам для O2C.

В случае O2C – это также сквозной процесс, который расшифровывается как Order to cash. Он отвечает за привлечение новых клиентов и получение прибыли. Кроме того, такой подход помогает перестраивать бизнес-процессы на предприятии и способствует активной цифровизации производственных процессов.

Сегодня использование O2C напрямую связано с промышленной цифровизацией. Постепенно все, начиная от поиска лидов и сопровождения сделок, заканчивая непосредственно продажами, передачей права собственности, когда бухгалтерия контрагента расписалась в акте, перестраивается на автоматический режим.

O2C как бизнес состоит из нескольких больших подразделений, эти же подразделения являются как потребителями данных, так и основными генераторами идей, все-таки стараемся работать в продуктовом подходе и учитывать хотелки всех и вся, как минимум внутри O2C.


Читать: https://habr.com/ru/post/678036/
👍2
Разметка данных в машинном обучении: процесс, разновидности и рекомендации

Когда люди слышат про искусственный интеллект, глубокое обучение и машинное обучение, многие представляют роботов из фильмов, интеллект которых сравним или даже превосходит интеллект человека. Другие считают, что такие машины просто потребляют информацию и учатся на ней самостоятельно. Но на самом деле это далеко от истины: без человеческой помощи возможности компьютерных систем ограничены, и чтобы они стали «умными», необходима разметка данных.

В этой статье мы расскажем, что такое разметка данных, как она работает, о типах разметки данных и о рекомендациях, позволяющих сделать этот процесс беспроблемным.


Читать: https://habr.com/ru/post/678524/
👍2
Process Apache Hudi, Delta Lake, Apache Iceberg dataset at scale, part 2: Using AWS Glue Studio Visual Editor

Read: https://aws.amazon.com/blogs/big-data/part-2-integrate-apache-hudi-delta-lake-apache-iceberg-dataset-at-scale-using-aws-glue-studio-visual-editor/
👍2
Получил доступ к Dalle-2. Вы не поверите, что может нарисовать машина… Дизайнеры больше не нужны


Текст генерации: furry monster with green eyes looking at us, the word «habrahabr» in the background, digital art, blue background, 3d

Привет, чемпион!

Недавно мне посчастливилось стать обладателем доступа к API Dalle-2. Если ты ещё не слышал про Dalle, то это такая CLIP-архитектура, обученная на огромном корпусе пар текст-изображение. Иначе говоря — она умеет генерировать очень качественные изображения из текста. Отличить результаты генерации от рисунков человека иногда просто невозможно! Это одновременно впечатляет и в то же время — немного шокирует.

По сравнению с предыдущей версией — DALL-E 2 умеет генерировать изображения в более высоком разрешении (1024×1024 пикселей, что в 16 раз превышает разрешение в предыдущей версии модели) да ещё и намного быстрее. Более того, DALL-E 2 позволяет редактировать уже существующие изображения.

Нет больше терпения ждать, давайте же опробуем её!


Читать: https://habr.com/ru/post/678876/
👍3
CDC и логическая репликация для баз данных, реализованных на стеке open source-решений

Привет, Хабр! На связи СберТех — мы создаём Platform V, цифровую платформу Сбера для разработки бизнес-приложений.

В платформу входит более 60 продуктов на базе собственных сборок open source, доработанных до уровня enterprise по функциональности, безопасности, производительности и отказоустойчивости.

В этой статье расскажем про реализацию паттерна Change Data Capture и межкластерной репликации данных в продукте Platform V DataGrid, распределённой in-memory базе данных для высокопроизводительных вычислений. А также об особенностях внедрения функции и вариантах репликации. Написать материал помог наш коллега Николай Ижиков из команды по развитию баз данных на стеке open source.


Читать: https://habr.com/ru/post/679028/
🔥2
How SumUp built a low-latency feature store using Amazon EMR and Amazon Keyspaces

Read: https://aws.amazon.com/blogs/big-data/how-sumup-built-a-low-latency-feature-store-using-amazon-emr-and-amazon-keyspaces/
👍3
Oracle enables revenue transformation with Fusion CX Analytics

Introducing Oracle Fusion CX Analytics. Fusion CX Analytics meets the need for an easy-to-use system that can help model KPIs and monitor the business through them, as well as one capable of drilling down to uncover insights in granular detail without involving IT.

Read: https://blogs.oracle.com/analytics/post/oracle-enables-revenue-transformation-with-fusion-cx-analytics
👍2
Create a most-recent view of your data lake using Amazon Redshift Serverless

Read: https://aws.amazon.com/blogs/big-data/create-a-most-recent-view-of-your-data-lake-using-amazon-redshift-serverless/
👍2
Scale Amazon QuickSight embedded analytics with new API-based domain allow listing

Read: https://aws.amazon.com/blogs/big-data/scale-amazon-quicksight-embedded-analytics-with-new-api-based-domain-allow-listing/
👍2
IDC: Oracle Analytics is a leader in U.S. Business Intelligence and Analytics

Oracle Analytics has been recognized as a Leader in the ‘IDC MarketScape: U.S. Business Intelligence and Analytics Platforms 2022 Vendor Assessment’ report.

Read: https://blogs.oracle.com/analytics/post/idc-oracle-analytics-leader-in-us-business-intelligence-and-analytics-marketscape
👍2
Как собрать платформу обработки данных «своими руками»?

Большое количество российских компаний столкнулись с ограничениями в области ПО. Они теперь не имеют возможности использовать многие важные инструменты для работы с данными. Но, как говорится, одна дверь закрылась — другая открылась. Альтернатива зарубежным решениям есть: платформу обработки данных можно создать своими силами. Расскажем, как мы в ITSumma это сделали, какие компоненты использовали, с какими ограничениями столкнулись и зачем вообще всё это нужно.
Предыстория (очень короткая)

Один заказчик, который заинтересовался нашими компетенциям в построении инфраструктур, предложил крупный интеграционный проект. Архитекторы клиента придумали сложную и большую платформу, которая включала в себя машинное обучение, обработку данных и управлялась с помощью Kubernetes. Нам поставили задачу реализовать проект платформы, настроить связность элементов, построить и запустить инфраструктуру в эксплуатацию.

В итоге всё прошло хорошо и заказчик доволен. А у нас возникла идея скомпоновать свою платформу — такую, чтобы она была доступной не только большому бизнесу, но и компаниям среднего и малого масштаба. То есть сделать так, чтобы можно было получать большие возможности и не платить при этом огромные деньги.


Читать: https://habr.com/ru/post/679516/
👍2
[recovery mode] Build vs buy: покупать софт у вендора или разрабатывать собственное IT-решение?

Купить готовое ПО или разрабатывать самим – один из острых вопросов перед компаниями в эпоху цифровизации. Решение, как правило, зависит от объема ресурсов, которые предприятие готово вложить в это дело, от сроков решения задачи, специфики управления компанией и корпоративных компетенций, которыми она обладает.

Однозначного ответа на вопрос, что окажется быстрее и дешевле, нет: каждый из путей предполагает большое количество подводных камней и факторов, влияющих на конечный результат. Важна разумная комбинация с учётом внешнего и внутреннего контекстов. В этой статье порассуждаем о том, как её достичь.


Читать: https://habr.com/ru/post/679526/
👍2
Как мы выстроили процесс собеседований в DS

Всем привет! Я Жека Никитин, Head of AI в медтех-стартапе «Цельс».

Сегодня хочу рассказать вам, как у нас устроен процесс собеседований, почему были приняты те или иные решения,какие сохранились слабые места и как мы с этим боремся.


Читать: https://habr.com/ru/post/679550/
👍2
Хранение данных, опыт Oxygen: профессиональные СХД становятся еще более востребованными

Проблема эффективного хранения данных стоит сегодня перед многими компаниями, и поэтому сегодня я подготовил текст о том, как именно мы решаем задачу хранения в облаке Oxygen. В этом посте речь пойдет о преимуществах виртуализации хранилищ NetApp, о том, что дают нам СХД Huawei, как организовано подключение пользователей к виртуальному хранилищу облака Oxygen. Также мы рассмотрим несколько примеров, когда преимущества профессиональных СХД остаются неоспоримыми.


Читать: https://habr.com/ru/post/679574/
👍2
Как мы в Brand Analytics разработали Детектор сбоев и как вы можете помочь его улучшить

Привет, Хабр! Мы тут решили выйти из тени, на этот раз по-настоящему, технически, без маркетинговых текстов. А раз без маркетинга, то почитать про сам Brand Analytics можно на сайте или очень кратко под катом.

Меня зовут Островский Григорий, я CTO Brand Analytics. Сегодня расскажу, как за 4 недели мы запускали Детектор сбоев взамен ушедшему из рунета Downdetector: на какие задачки напоролись, как с ними боролись и как пришла идея — дать возможность сообществу улучшить определение сбоев на больших данных в нашем первом контесте.

Так как статью пишу здесь впервые, буду крайне признателен фидбеку, чтобы понять, на чём сделать больше акцент, нужно ли больше технических подробностей, какие темы остались не раскрыты и что ещё подкорректировать на будущее.


Читать: https://habr.com/ru/post/679580/