Data Analysis / Big Data – Telegram
Data Analysis / Big Data
2.82K subscribers
570 photos
3 videos
2 files
2.92K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Dagster | Туториал

Dagster — это оркестратор, предназначенный для организации конвейеров обработки данных: ETL, проведение тестов, формирование отчетов, обучение ML-моделей и т.д.

На паре несложных примеров посмотрим как его развернуть, настроить и работать с ним.


Читать: https://habr.com/ru/post/690342/
👍1
Get a quick start with Apache Hudi, Apache Iceberg, and Delta Lake with Amazon EMR on EKS

Read: https://aws.amazon.com/blogs/big-data/get-a-quick-start-with-apache-hudi-apache-iceberg-and-delta-lake-with-amazon-emr-on-eks/
👍1
Поиск it компаний с аккредитацией минцифры и крупицы Big Data

Времени на раскачку нет - сразу к делу.

На сайте digital.gov.ru можно найти документ со списком организаций, прошедших аккредитацию минцифры. Давайте оперативно реализуем сервис для поиска и проверки аккредитации у организаций.
Проверить аккредитацию

Читать: https://habr.com/ru/post/690474/
Customize Amazon QuickSight dashboards with the new bookmarks functionality

Read: https://aws.amazon.com/blogs/big-data/customize-amazon-quicksight-dashboards-with-the-new-bookmarks-functionality/
👍1
How AWS Data Lab helped BMW Financial Services design and build a multi-account modern data architecture

Read: https://aws.amazon.com/blogs/big-data/how-aws-data-lab-helped-bmw-financial-services-design-and-build-a-multi-account-modern-data-architecture/
👍1
Ensure availability of your data using cross-cluster replication with Amazon OpenSearch Service

Read: https://aws.amazon.com/blogs/big-data/ensure-availability-of-your-data-using-cross-cluster-replication-with-amazon-opensearch-service/
👍1
Сравнение FineBI и FineReport

Китайский производитель BI-решений FanRuan постепенно открывает для мирового рынка свои передовые разработки в сфере бизнес-анализа. Однако FineBI далеко не единственный продукт, предлагаемый компанией. Сегодня разберем подробнее, что из себя представляют FineBI и другой продукт анализа данных FineReport, рассмотрим их главные сходства и различия.


Читать: https://habr.com/ru/post/690722/
Python для биологов

Каждый, кто слышит словосочетание "язык программирования", наверняка представляет себе код или скрипт, который выполняет строгий порядок действий для решения сложной технической задачи. Если спросить прохожего, для каких целей используются языки программирования, первое, что придет ему на ум - разработка, а любой гуманитарий скажет, что это скучно и совершенно не интересно. Однако, мне хотелось бы развеять эти стереотипы. Учитывая современные тенденции роста научно-технического прогресса, важно отметить, что программирование пересало быть чисто "техническим" инструментом. Сегодня оно позволяет не только создавать алгоритмы для управления техникой, но и делать научные открытия, например в биологии. Понять, как устроена биоинжереная машина внутри наших клеток, какие функции выполняеет каждый отдельно взятый ген, какие гены ответственны за наши болезни, как вирусы и бактерии влияют на нас на молекулярном уровне, как создать новый фармацевтический препарат и множество других вопросов, позволяет программирование.

Python - высокоуровневый язык программирования, который широко применяется в самых разных сферах деятельности: в разработке, в тестировании, в администровании, в анализе данных, в моделировании, а также в науке. Широкое распространение он получил не только, благодаря своей простоте и лаконичности, но и в силу своей модульности, возможности интегрироваться с другими языками программирования и наличия большого количества пакетов для анализа больших данных и научных расчетов.


Читать: https://habr.com/ru/post/690734/
Build a high-performance, transactional data lake using open-source Delta Lake on Amazon EMR

Read: https://aws.amazon.com/blogs/big-data/build-a-high-performance-transactional-data-lake-using-open-source-delta-lake-on-amazon-emr/
Архитектура платформы машинного обучения в продакшене

История машинного обучения (Machine learning, ML) началась в 1950-х, когда появились первые нейронные сети и алгоритмы ML. Однако чтобы стать известным обычному человеку, машинному обучению понадобилось ещё шестьдесят лет. Анализ более чем 16 тысяч статей по data science MIT technologies демонстрирует экспоненциальный рост машинного обучения на протяжении последних двадцати лет, стимулируемый big data и прогрессом в глубоком обучении.

На практике любой, имеющий доступ к данным и компьютеру, может сегодня обучить модель машинного обучения. Возможности автоматизации и создаваемые ML прогнозы имеют множество различных применений. Благодаря им работают современные системы распознавания мошенничества, приложения доставки товаров предсказывают время прибытия на лету, а программы помогают в медицинской диагностике.

Способы создания и применения моделей зависят от потребностей организации и прикладной области ML. Процесс создания моделей машинного обучения подробно описан, однако у ML существует и другая сторона — внедрение моделей в среде продакшена. Модели в продакшене управляются через специальный тип инфраструктуры — конвейеры машинного обучения. В статье мы расскажем о функциях сервисов ML в продакшене и рассмотрим готовые решения.


Читать: https://habr.com/ru/post/688406/
👍2
Build, Test and Deploy ETL solutions using AWS Glue and AWS CDK based CI/CD pipelines

Read: https://aws.amazon.com/blogs/big-data/build-test-and-deploy-etl-solutions-using-aws-glue-and-aws-cdk-based-ci-cd-pipelines/
👍2
ClearML | Туториал

ClearML — это довольно мощный фреймворк, основным предназначением которого является трекинг ML-экспериментов. Для рассмотрения его возможностей построим небольшой пайплайн обучения ML-модели...


Читать: https://habr.com/ru/post/691314/
👍1
Сравнение FineBI и Power BI

За последнее время, на рынке BI-услуг все чаще можно услышать упоминание нового игрока в лице китайской компании FanRuan.
Основанная в 2006 году, она является китайским лидером в продвижении систем бизнес-анализа в массы, с 15% долей локального рынка и более чем 15 тысяч клиентами.
Производитель китайского BI-решения, представляет продукт Fine BI как удобный инструмент для Self Service BI-анализа, способный стать заменой такому мировому гиганту как PowerBI, в сравнении с которым он будет сегодня рассмотрен более подробно.


Читать: https://habr.com/ru/post/691420/
Куда приводят Ops'ы: размышления о развитии ландшафта *Ops-специализаций

Разнообразные и разнонаправленные изменения, на которые 2022-й оказался более чем щедр, натолкнули на размышления о том, каков текущий Ops-ландшафт и как он (потенциально) будет изменяться в ближайшей и среднесрочной перспективе. И хотя все сейчас живут в соответствии с известным изречением «Хочешь насмешить Бога — расскажи ему о своих планах», можно попытаться кое-что спрогнозировать.

К слову о прогнозировании: несмотря на недавние новости о снижении мобильного трафика в России, Nokia Bell Labs предсказывает рост мирового объема IP-трафика в 2022 году до уровня в 330 эксабайт в месяц. А количество устройств, подключенных к Интернету вещей, по мнению экспертов, вырастет до 100 млрд в 2025 году. И большую часть сгенерированных устройствами и пользователями данных, так или иначе, будет анализировать бизнес.

Для автоматизации этого процесса используются платформы обработки и хранения данных, которые дают аналитикам огромные возможности по их глубокому изучению. Однако инфраструктуры таких платформ довольно сложно сопровождать — они содержат много компонентов и связей между ними. А у BI-специалистов свои задачами, им недосуг следить за тем, как, например, распаковывается JSON или извлекаются данные. Так что «платформа ищет человека». И находит его — в лице DataOps- и MLOps-инженеров.


Читать: https://habr.com/ru/post/691636/
👍2
Возможности предиктивной аналитики в повышении энергоэффективности оборудования и прогнозе энергопотребления

По данным консалтинговой компании Roland Berger, ведущие электроэнергетические компании по всему миру реализуют программы цифровой трансформации. Повсеместное применение больших данных способствует развитию решений предиктивной аналитики, которые сегодня высоко востребованы в энергетике. Прогнозная аналитика позволяет предсказать выход оборудования из строя, объективно оценивать риски и принимать стратегически верные решения.

В этой статье мы расскажем о том, как с помощью предиктивного анализа реализовать качественный прогноз энергопотребления и повысить энергоэффективность оборудования генерирующих компаний.


Читать: https://habr.com/ru/post/691678/
Большим данным настал конец. Databricks, Snowflake и конец неоправданного хайпа

Что только нам не обещали с появлением Big Data. Мы будем прогнозировать продуктовый спрос и вспышки болезни, научим нейросети рисовать картины и сочинять романы, от которых плакал бы сам Достоевский (воссозданный теми же нейросетями по дневникам, портретам и рассказам современников). Что-то из этого уже в каком-то виде увидело свет — и это круто. Но большинству компаний это неинтересно и не нужно. Вместо суперсовременной архитектуры с плюшками-свистелками мы ищем аналоги наших старых хранилищ, но быстрее, дешевле и полегче в настройке. И это наглядно видно на примере историй Databricks и Snowflake.
Кликбейт, но интересно

Читать: https://habr.com/ru/post/689094/
👍2
Common streaming data enrichment patterns in Amazon Kinesis Data Analytics for Apache Flink

Read: https://aws.amazon.com/blogs/big-data/common-streaming-data-enrichment-patterns-in-amazon-kinesis-data-analytics-for-apache-flink/
Ingest streaming data to Apache Hudi tables using AWS Glue and Apache Hudi DeltaStreamer

Read: https://aws.amazon.com/blogs/big-data/ingest-streaming-data-to-apache-hudi-tables-using-aws-glue-and-apache-hudi-deltastreamer/