Understanding the JVMMemoryPressure metric changes in Amazon OpenSearch Service
Read: https://aws.amazon.com/blogs/big-data/understanding-the-jvmmemorypressure-metric-changes-in-amazon-opensearch-service/
Read: https://aws.amazon.com/blogs/big-data/understanding-the-jvmmemorypressure-metric-changes-in-amazon-opensearch-service/
New features from Apache Hudi 0.9.0 on Amazon EMR
Read: https://aws.amazon.com/blogs/big-data/new-features-from-apache-hudi-0-9-0-on-amazon-emr/
Read: https://aws.amazon.com/blogs/big-data/new-features-from-apache-hudi-0-9-0-on-amazon-emr/
15 Open Source библиотек для повышения качества данных
Автор этого материала — программист и ML-инженер — собрала Open Source библиотеки Python, которые помогут вам сделать данные лучше, чтобы избежать траты времени и упростить анализ данных. Подборкой делимся к старту курса по анализу данных.
Читать: https://habr.com/ru/post/659075/
Автор этого материала — программист и ML-инженер — собрала Open Source библиотеки Python, которые помогут вам сделать данные лучше, чтобы избежать траты времени и упростить анализ данных. Подборкой делимся к старту курса по анализу данных.
Читать: https://habr.com/ru/post/659075/
WETIN BE DATABASE (NGN Pidgin)
WETIN BE DATABASE?
Database na group of data wey dey well arranged and stored for inside computer.
This Database, dem dey use am store plenty type of different different data, like users information (anybody wey dey use a website, app or software s...
Read: https://hashnode.com/post/wetin-be-database-ngn-pidgin-cl1lvvmsp01cv4pnv081j7uhj
WETIN BE DATABASE?
Database na group of data wey dey well arranged and stored for inside computer.
This Database, dem dey use am store plenty type of different different data, like users information (anybody wey dey use a website, app or software s...
Read: https://hashnode.com/post/wetin-be-database-ngn-pidgin-cl1lvvmsp01cv4pnv081j7uhj
Семантическая сегментация изображений в CVAT
Товарищи, я начинаю цикл статей-туториалов по разметке данных с помощью разного ПО. Начать решил с самого знаменитого из всех бесплатных инструментов - Computer Vision Annotation Tool. Им может воспользоваться буквально любой желающий, достаточно только зарегистрироваться.
Предупреждаю: это вводная статья для новичков, призванная решить самые главные вопросы "как это работает и куда тыкать". Экспертов прошу поправить или дополнить написанное.
На русском языке не встречал настолько подробных гайдов. Думаю он будет очень полезен.
Ну посмотрим, что там у тебя...
Читать: https://habr.com/ru/post/659251/
Товарищи, я начинаю цикл статей-туториалов по разметке данных с помощью разного ПО. Начать решил с самого знаменитого из всех бесплатных инструментов - Computer Vision Annotation Tool. Им может воспользоваться буквально любой желающий, достаточно только зарегистрироваться.
Предупреждаю: это вводная статья для новичков, призванная решить самые главные вопросы "как это работает и куда тыкать". Экспертов прошу поправить или дополнить написанное.
На русском языке не встречал настолько подробных гайдов. Думаю он будет очень полезен.
Ну посмотрим, что там у тебя...
Читать: https://habr.com/ru/post/659251/
Run AWS Glue crawlers using Amazon S3 event notifications
Read: https://aws.amazon.com/blogs/big-data/run-aws-glue-crawlers-using-amazon-s3-event-notifications/
Read: https://aws.amazon.com/blogs/big-data/run-aws-glue-crawlers-using-amazon-s3-event-notifications/
👍1
Introducing Protocol buffers (protobuf) schema support in Amazon Glue Schema Registry
Read: https://aws.amazon.com/blogs/big-data/introducing-protocol-buffers-protobuf-schema-support-in-amazon-glue-schema-registry/
Read: https://aws.amazon.com/blogs/big-data/introducing-protocol-buffers-protobuf-schema-support-in-amazon-glue-schema-registry/
Oracle Analytics Server 2022 (v6.4) is available!
Oracle announces the availability of our customer-managed analytics platform: Oracle Analytics Server 2022 (version 6.4). This is the next generation of Oracle Business Intelligence Enterprise Edition (OBIEE) and a great path to modernization for anyone needing to deploy analytics on-premises or customer-managed in the cloud.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-server-2022-v64-is-available
Oracle announces the availability of our customer-managed analytics platform: Oracle Analytics Server 2022 (version 6.4). This is the next generation of Oracle Business Intelligence Enterprise Edition (OBIEE) and a great path to modernization for anyone needing to deploy analytics on-premises or customer-managed in the cloud.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-server-2022-v64-is-available
Oracle
Oracle Analytics Server 2022 is available!
Oracle announces the availability of our customer-managed analytics platform: Oracle Analytics Server 2022. This is the next generation of Oracle Business Intelligence Enterprise Edition (OBIEE) and a great path to modernization for anyone needing to deploy…
👍1
Hudi, Iceberg и Delta Lake: сравнение табличных форматов для озера данных
Lake Berryessa by chateaugrief
Выбор формата хранения данных при создании Data Lake влияет на производительность озера, удобство его использования и совместимость с другими инструментами.
Команда разработки Cloud Big Data от VK Cloud Solution перевела статью — сравнение трех форматов данных: Apache Hudi, Apache Iceberg и Delta Lake. Посмотрим, какие в них применяются подходы к производительности обновлений, параллелизму и совместимости, и разберем, какой формат больше подойдет под ваши задачи.
Читать: https://habr.com/ru/post/658563/
Lake Berryessa by chateaugrief
Выбор формата хранения данных при создании Data Lake влияет на производительность озера, удобство его использования и совместимость с другими инструментами.
Команда разработки Cloud Big Data от VK Cloud Solution перевела статью — сравнение трех форматов данных: Apache Hudi, Apache Iceberg и Delta Lake. Посмотрим, какие в них применяются подходы к производительности обновлений, параллелизму и совместимости, и разберем, какой формат больше подойдет под ваши задачи.
Читать: https://habr.com/ru/post/658563/
👍1
Применение онтологии к решению практических задач ИБ (часть 1)
В мире каждый день появляется много нового, все чаще возникают новые предметные области, о возможности появления которых мы даже не задумывались еще несколько лет назад. При этом старые предметные области уходят, не выдержав конкуренции. Каждая предметная область характеризуется прежде всего специальными знаниями, описывающими объекты этой области и их свойства. Практическое использование таких знаний является уделом экспертов. Собственно, в обладании такими знаниям и состоит профессиональная компетентность эксперта. Однако оставаться всезнающим экспертом в наши дни становится все сложнее...
Познакомиться с онтологиями
Читать: https://habr.com/ru/post/659425/
В мире каждый день появляется много нового, все чаще возникают новые предметные области, о возможности появления которых мы даже не задумывались еще несколько лет назад. При этом старые предметные области уходят, не выдержав конкуренции. Каждая предметная область характеризуется прежде всего специальными знаниями, описывающими объекты этой области и их свойства. Практическое использование таких знаний является уделом экспертов. Собственно, в обладании такими знаниям и состоит профессиональная компетентность эксперта. Однако оставаться всезнающим экспертом в наши дни становится все сложнее...
Познакомиться с онтологиями
Читать: https://habr.com/ru/post/659425/
👍1
The Data Founder Story: The Subtle Difference
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-the-subtle
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-the-subtle
Mastering Excel Functions
Microsoft Excel is one of Microsoft's awesome technologies used for data analysis, visualization, processing, and many database functions. It uses spreadsheets to organize, store and track data sheets with formulas and functions.
Throughout this tut...
Read: https://elevio.hashnode.dev/mastering-excel-functions
Microsoft Excel is one of Microsoft's awesome technologies used for data analysis, visualization, processing, and many database functions. It uses spreadsheets to organize, store and track data sheets with formulas and functions.
Throughout this tut...
Read: https://elevio.hashnode.dev/mastering-excel-functions
BREAKING INTO DATA SCIENCE (~Guide)
INTRODUCTION
When it comes to data science initiatives, no one ever appears to be able to give a clear explanation of how the entire process works. From data collection to data analysis and presentation.
In this write up, I dissect the data science...
Read: https://goodycyb.hashnode.dev/breaking-into-data-science-guide
INTRODUCTION
When it comes to data science initiatives, no one ever appears to be able to give a clear explanation of how the entire process works. From data collection to data analysis and presentation.
In this write up, I dissect the data science...
Read: https://goodycyb.hashnode.dev/breaking-into-data-science-guide
Монетизация данных. Зачем Большой Брат следит за нами?
2021-й год стал первым годом, когда крупные компании начали понимать на практике, зачем же они следят за пользователями. До этого бигдата была инструментом поиска вещей, которые можно было сделать и статичными правилами, а вот сейчас наконец-то стала полезной принципиально иначе.
Теперь можно получать обработку информации в реальном времени (и реагировать гибко и сразу на те же действия на сайте или в приложении), в агрегации данных (теперь банк знает, где вы живёте, какие у вас были диагнозы по чекам из аптеки и какие интернет-магазины вы предпочитаете по адресам посещаемых сайтов, от стратегического альянса с провайдером или сотовым оператором) и так далее.
Читать: https://habr.com/ru/post/659527/
2021-й год стал первым годом, когда крупные компании начали понимать на практике, зачем же они следят за пользователями. До этого бигдата была инструментом поиска вещей, которые можно было сделать и статичными правилами, а вот сейчас наконец-то стала полезной принципиально иначе.
Теперь можно получать обработку информации в реальном времени (и реагировать гибко и сразу на те же действия на сайте или в приложении), в агрегации данных (теперь банк знает, где вы живёте, какие у вас были диагнозы по чекам из аптеки и какие интернет-магазины вы предпочитаете по адресам посещаемых сайтов, от стратегического альянса с провайдером или сотовым оператором) и так далее.
Читать: https://habr.com/ru/post/659527/
Simplify management of database privileges in Amazon Redshift using role-based access control
Read: https://aws.amazon.com/blogs/big-data/simplify-management-of-database-privileges-in-amazon-redshift-using-role-based-access-control/
Read: https://aws.amazon.com/blogs/big-data/simplify-management-of-database-privileges-in-amazon-redshift-using-role-based-access-control/
Integrate Amazon Redshift native IdP federation with Microsoft Azure AD and Power BI
Read: https://aws.amazon.com/blogs/big-data/integrate-amazon-redshift-native-idp-federation-with-microsoft-azure-ad-and-power-bi/
Read: https://aws.amazon.com/blogs/big-data/integrate-amazon-redshift-native-idp-federation-with-microsoft-azure-ad-and-power-bi/
🔥1
17 лучших инструментов и технологий для работы с большими данными, о которых нужно знать в 2022 году
Мир больших данных становится только еще больше. Организации всех мастей производят огромное количество данных из года в год, и находят все больше способов использовать их для улучшения работы, лучшего понимания клиентов, более быстрой доставки продукции и снижения затрат, а также для других целей. Кроме того, руководители компаний, стремящиеся быстрее получить отдачу от данных, ищут возможности анализа в режиме реального времени.
Все это стимулирует значительные инвестиции в инструменты и технологии работы с большими данными. В своем отчете за август 2021 года компания IDC, занимающаяся исследованием рынка, оценила ожидаемые мировые расходы на системы больших данных и аналитики в $215,7 млрд в 2021 году, что на 10,1% больше, чем в прошлом году. Она также прогнозирует, что расходы будут расти на 12,8% в год до 2025 года.
Читать: https://habr.com/ru/post/659657/
Мир больших данных становится только еще больше. Организации всех мастей производят огромное количество данных из года в год, и находят все больше способов использовать их для улучшения работы, лучшего понимания клиентов, более быстрой доставки продукции и снижения затрат, а также для других целей. Кроме того, руководители компаний, стремящиеся быстрее получить отдачу от данных, ищут возможности анализа в режиме реального времени.
Все это стимулирует значительные инвестиции в инструменты и технологии работы с большими данными. В своем отчете за август 2021 года компания IDC, занимающаяся исследованием рынка, оценила ожидаемые мировые расходы на системы больших данных и аналитики в $215,7 млрд в 2021 году, что на 10,1% больше, чем в прошлом году. Она также прогнозирует, что расходы будут расти на 12,8% в год до 2025 года.
Читать: https://habr.com/ru/post/659657/
An outlier or the norm
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/04/an-outlier-or-the-norm.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/04/an-outlier-or-the-norm.html
Как генерировать Flame Graph из выходных данных perf и pt-pmp
Человеческий мозг обычно лучше воспринимает информацию из изображений, чем из текстов. И в инструментах, подобных Flame Graph, этот принцип блестяще реализован. Поэтому в Percona его используют в рамках работы группы поддержки. Чаще всего в тех случаях, когда нужно получить всестороннее представление о том, что и как долго проделывает MySQL. Так можно лучше понять, какие операции стоят за конкретной рабочей нагрузкой и каким образом лучше исправлять возникающие проблемы. И это можно использовать и для оптимизации, и для устранения неполадок.
Давайте воспользуемся их опытом и разберемся, откуда брать и как подготавливать образцы для визуализации данных. А после этого — как из них генерировать Flame Graph и как с этим работать.
Читать: https://habr.com/ru/post/659789/
Человеческий мозг обычно лучше воспринимает информацию из изображений, чем из текстов. И в инструментах, подобных Flame Graph, этот принцип блестяще реализован. Поэтому в Percona его используют в рамках работы группы поддержки. Чаще всего в тех случаях, когда нужно получить всестороннее представление о том, что и как долго проделывает MySQL. Так можно лучше понять, какие операции стоят за конкретной рабочей нагрузкой и каким образом лучше исправлять возникающие проблемы. И это можно использовать и для оптимизации, и для устранения неполадок.
Давайте воспользуемся их опытом и разберемся, откуда брать и как подготавливать образцы для визуализации данных. А после этого — как из них генерировать Flame Graph и как с этим работать.
Читать: https://habr.com/ru/post/659789/
Разметка именованных сущностей в Label Studio
В предыдущей статье мы уже подробно рассмотрели процесс разметки семантической сегментации в CVAT. Сейчас я подробнее расскажу по NER-разметку в другом популярном open source инструменте Label Studio
Предупреждаю, статья в первую очередь направлена на новичков, которые делают первые шаги в разметке данных. Как и в прошлый раз мы шаг за шагом пройдем путь от установки и настройки проекта до экспорта уже размеченного датасета.
В процессе будем подробнее останавливаться на нюансах связанных с извлечением именованных сущностей и рекомендациях из личного опыта.
Посмотрим, что у тебя там...
Читать: https://habr.com/ru/post/659791/
В предыдущей статье мы уже подробно рассмотрели процесс разметки семантической сегментации в CVAT. Сейчас я подробнее расскажу по NER-разметку в другом популярном open source инструменте Label Studio
Предупреждаю, статья в первую очередь направлена на новичков, которые делают первые шаги в разметке данных. Как и в прошлый раз мы шаг за шагом пройдем путь от установки и настройки проекта до экспорта уже размеченного датасета.
В процессе будем подробнее останавливаться на нюансах связанных с извлечением именованных сущностей и рекомендациях из личного опыта.
Посмотрим, что у тебя там...
Читать: https://habr.com/ru/post/659791/
Как собрать отчет в Google Data Studio быстро и просто
Осенью 2021 года я задумался о бесплатных инструментах аналитики и построения отчетности, доступных простым пользователям. В том или ином виде можно использовать Power BI или Tableau, но почему бы не попробовать что-то более простое?
Небольшой дисклеймер: датасет, о котором далее пойдет речь, был загружен осенью 2021 года. Сейчас датасет другой, возможно более чистый. Загружать новые данные счел нерациональным, поскольку серия постов будет про простейшие визуализации, а не про актуальные исследования или сложные диаграммы. И нет, это не подробная методичка по возможностям GDS, это только общий обзор решения и разбор одного кейса.
Нас интересует только сторона работы обычного аналитика, насколько это возможно (и насколько я себе это представляю), поэтому я буду стараться искать самые простые пути решения проблемы. Понимаю, что некоторые методы вроде использования промежуточной базы данных не выглядят простыми для кого-то, но с тем же успехом можно использовать таблицы от Google. У меня БД просто была под рукой, да и выстроить полноценный ETL-процесс без неё не выйдет.
Читать: https://habr.com/ru/post/659827/
Осенью 2021 года я задумался о бесплатных инструментах аналитики и построения отчетности, доступных простым пользователям. В том или ином виде можно использовать Power BI или Tableau, но почему бы не попробовать что-то более простое?
Небольшой дисклеймер: датасет, о котором далее пойдет речь, был загружен осенью 2021 года. Сейчас датасет другой, возможно более чистый. Загружать новые данные счел нерациональным, поскольку серия постов будет про простейшие визуализации, а не про актуальные исследования или сложные диаграммы. И нет, это не подробная методичка по возможностям GDS, это только общий обзор решения и разбор одного кейса.
Нас интересует только сторона работы обычного аналитика, насколько это возможно (и насколько я себе это представляю), поэтому я буду стараться искать самые простые пути решения проблемы. Понимаю, что некоторые методы вроде использования промежуточной базы данных не выглядят простыми для кого-то, но с тем же успехом можно использовать таблицы от Google. У меня БД просто была под рукой, да и выстроить полноценный ETL-процесс без неё не выйдет.
Читать: https://habr.com/ru/post/659827/