Предохранители для данных: как автоматические выключатели повышают Data Quality
Представьте, что бизнес-метрика неожиданно резко вырастает или проседает. Как понять, реальное это изменение или проблема с качеством данных? Команда VK Cloud перевела статью о том, как в компании Intuit решают этот вопрос с помощью предохранителей для пайплайнов данных.
В чем суть предохранителя
Если возникают проблемы с данными, предохранитель разрывает «цепь» и не пускает некачественные данные в следующие процессы обработки. В результате данные, которые приходятся на периоды низкого качества, не входят в отчеты. А значит, можно быть уверенным в их корректности.
Такой проактивный подход сокращает Time-to-Reliable-Insights до минут. А автоматизация обеспечивает прямую зависимость данных от их качества. Это позволяет избежать разрушительных авралов, которые возникают всякий раз, когда нужно проверить и поправить метрики или отчеты. Далее мы в подробностях рассмотрим, как внедрять такие предохранители.
Читать: https://habr.com/ru/post/684120/
Представьте, что бизнес-метрика неожиданно резко вырастает или проседает. Как понять, реальное это изменение или проблема с качеством данных? Команда VK Cloud перевела статью о том, как в компании Intuit решают этот вопрос с помощью предохранителей для пайплайнов данных.
В чем суть предохранителя
Если возникают проблемы с данными, предохранитель разрывает «цепь» и не пускает некачественные данные в следующие процессы обработки. В результате данные, которые приходятся на периоды низкого качества, не входят в отчеты. А значит, можно быть уверенным в их корректности.
Такой проактивный подход сокращает Time-to-Reliable-Insights до минут. А автоматизация обеспечивает прямую зависимость данных от их качества. Это позволяет избежать разрушительных авралов, которые возникают всякий раз, когда нужно проверить и поправить метрики или отчеты. Далее мы в подробностях рассмотрим, как внедрять такие предохранители.
Читать: https://habr.com/ru/post/684120/
🔥3
Convert Oracle XML BLOB data using Amazon EMR and load to Amazon Redshift
Read: https://aws.amazon.com/blogs/big-data/convert-oracle-xml-blob-data-using-amazon-emr-and-load-to-amazon-redshift/
Read: https://aws.amazon.com/blogs/big-data/convert-oracle-xml-blob-data-using-amazon-emr-and-load-to-amazon-redshift/
🥰2
New additions to line charts in Amazon QuickSight
Read: https://aws.amazon.com/blogs/big-data/new-additions-to-line-charts-in-amazon-quicksight/
Read: https://aws.amazon.com/blogs/big-data/new-additions-to-line-charts-in-amazon-quicksight/
🔥2
Amazon migrates financial reporting to Amazon QuickSight
Read: https://aws.amazon.com/blogs/big-data/amazon-migrates-financial-reporting-to-amazon-quicksight/
Read: https://aws.amazon.com/blogs/big-data/amazon-migrates-financial-reporting-to-amazon-quicksight/
🔥1
Data Engineering Weekly #100
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-100
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-100
👍3
Бизнес и облачные технологии встретятся на площадке Yandex Scale
Yandex Scale — это онлайн-конференция про облачные технологии от Yandex Cloud. Более 50 ведущих IT-экспертов и разработчиков расскажут о том, как облачные технологии помогают бизнесу адаптироваться к новой реальности.
В программе более 30 выступлений по 5 тематическим трекам: Infrastructure, Data Platform, Security, Serverless, Business Tools. Участники конференции узнают о новых сервисах для бизнеса, обеспечении безопасности в облаке, возможностях бессерверных вычислений, повышении эффективности бизнеса за счет использования облачных бизнес-инструментов.
Когда: 23 сентября
Послушать выступления спикеров можно онлайн на сайте конференции — достаточно пройти простую регистрацию: https://tprg.ru/kiSp
#ивент
Yandex Scale — это онлайн-конференция про облачные технологии от Yandex Cloud. Более 50 ведущих IT-экспертов и разработчиков расскажут о том, как облачные технологии помогают бизнесу адаптироваться к новой реальности.
В программе более 30 выступлений по 5 тематическим трекам: Infrastructure, Data Platform, Security, Serverless, Business Tools. Участники конференции узнают о новых сервисах для бизнеса, обеспечении безопасности в облаке, возможностях бессерверных вычислений, повышении эффективности бизнеса за счет использования облачных бизнес-инструментов.
Когда: 23 сентября
Послушать выступления спикеров можно онлайн на сайте конференции — достаточно пройти простую регистрацию: https://tprg.ru/kiSp
#ивент
scale.yandex.cloud
Yandex Neuro Scale 2025 | 24 сентября | Москва и онлайн
Большая конференция Yandex Cloud для тех, кто создаёт цифровые продукты и решения. 7 тематических треков, 50+ выступлений и более 13 000 участников.
What about safety
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/09/what-about-safety.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/09/what-about-safety.html
👍1
Кто такой дата-аналитик в X5 Tech
Привет, Хабр! На связи отдел аналитики данных X5 Tech.
По мере развития технологий больших данных в сфере Data Science продолжает оформляться всё большее количество направлений, а уже существующие становятся более обособленными.
Тем не менее до сих пор многие с трудом могут ответить на вопрос чем занимается дата-аналитик.
В одной компании в его сферу обязанностей входит построение отчётов для бизнеса, в другой — дизайн и проведение АБ-экспериментов, а в третьей — подготовка витрин данных.
Поэтому вопрос "Так кто же такой этот ваш дата-аналитик?" мы слышим часто и хотим сегодня об этом поговорить.
Цель данной статьи — ответить на вопросы:
Читать: https://habr.com/ru/post/687554/
Привет, Хабр! На связи отдел аналитики данных X5 Tech.
По мере развития технологий больших данных в сфере Data Science продолжает оформляться всё большее количество направлений, а уже существующие становятся более обособленными.
Тем не менее до сих пор многие с трудом могут ответить на вопрос чем занимается дата-аналитик.
В одной компании в его сферу обязанностей входит построение отчётов для бизнеса, в другой — дизайн и проведение АБ-экспериментов, а в третьей — подготовка витрин данных.
Поэтому вопрос "Так кто же такой этот ваш дата-аналитик?" мы слышим часто и хотим сегодня об этом поговорить.
Цель данной статьи — ответить на вопросы:
Читать: https://habr.com/ru/post/687554/
Fine-grained ennoscriptments in Amazon Redshift: A case study from TrustLogix
Read: https://aws.amazon.com/blogs/big-data/fine-grained-ennoscriptments-in-amazon-redshift-a-case-study-from-trustlogix/
Read: https://aws.amazon.com/blogs/big-data/fine-grained-ennoscriptments-in-amazon-redshift-a-case-study-from-trustlogix/
👍1
Как устроена виртуальная машина SQLite
SQL – концептуально странный язык. Вы пишете ваше приложение на одном языке, скажем, на JavaScript, а затем направляете базе данных команды, написанные на совершенно другом языке – SQL. После этого база данных компилирует и оптимизирует эту команду на SQL, выполняет ее и возвращает вам данные. Такой метод кажется ужасно неэффективным, но, все-таки, ваше приложение может проделывать сотни таких операций в секунду. Просто безумие!
Но на самом деле всё ещё страньше.
Читать: https://habr.com/ru/post/687994/
SQL – концептуально странный язык. Вы пишете ваше приложение на одном языке, скажем, на JavaScript, а затем направляете базе данных команды, написанные на совершенно другом языке – SQL. После этого база данных компилирует и оптимизирует эту команду на SQL, выполняет ее и возвращает вам данные. Такой метод кажется ужасно неэффективным, но, все-таки, ваше приложение может проделывать сотни таких операций в секунду. Просто безумие!
Но на самом деле всё ещё страньше.
Читать: https://habr.com/ru/post/687994/
👍1
Choose the k-NN algorithm for your billion-scale use case with OpenSearch
Read: https://aws.amazon.com/blogs/big-data/choose-the-k-nn-algorithm-for-your-billion-scale-use-case-with-opensearch/
Read: https://aws.amazon.com/blogs/big-data/choose-the-k-nn-algorithm-for-your-billion-scale-use-case-with-opensearch/
👍2
Как обезличить персональные данные
Для ML-моделей не нужны (и даже вредны) персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные. Как их получить и как с ними работать? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными?
Меня зовут Алексей Нейман, я исполнительный директор Ассоциации больших данных. В этой статье попробуем разобраться в этих вопросах.
Читать: https://habr.com/ru/post/688116/
Для ML-моделей не нужны (и даже вредны) персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные. Как их получить и как с ними работать? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными?
Меня зовут Алексей Нейман, я исполнительный директор Ассоциации больших данных. В этой статье попробуем разобраться в этих вопросах.
Читать: https://habr.com/ru/post/688116/
👍2
Как базы данных «ключ-значение» обеспечивают производительность и масштабируемость без границ
Команда VK Cloud перевела статью о базах «ключ-значение». Вы узнаете, в чем их преимущества перед другими БД, какие базы работают по этому принципу и чем они отличаются между собой.
В чем суть баз «ключ-значение»
Суть проста — объекты в них хранятся и извлекаются с помощью ключа. Так мы прощаемся с:
* таблицами, столбцами и вводом ant data — всем, что можно так или иначе назвать blob-объектом;
* отношениями между объектами;
* сложными операциями.
Что же мы получаем взамен, когда отбрасываем все это?
Читать: https://habr.com/ru/post/685402/
Команда VK Cloud перевела статью о базах «ключ-значение». Вы узнаете, в чем их преимущества перед другими БД, какие базы работают по этому принципу и чем они отличаются между собой.
В чем суть баз «ключ-значение»
Суть проста — объекты в них хранятся и извлекаются с помощью ключа. Так мы прощаемся с:
* таблицами, столбцами и вводом ant data — всем, что можно так или иначе назвать blob-объектом;
* отношениями между объектами;
* сложными операциями.
Что же мы получаем взамен, когда отбрасываем все это?
Читать: https://habr.com/ru/post/685402/
Run Apache Spark with Amazon EMR on EKS backed by Amazon FSx for Lustre storage
Read: https://aws.amazon.com/blogs/big-data/run-apache-spark-with-amazon-emr-on-eks-backed-by-amazon-fsx-for-lustre-storage/
Read: https://aws.amazon.com/blogs/big-data/run-apache-spark-with-amazon-emr-on-eks-backed-by-amazon-fsx-for-lustre-storage/
👍1
Identify source schema changes using AWS Glue
Read: https://aws.amazon.com/blogs/big-data/identify-source-schema-changes-using-aws-glue/
Read: https://aws.amazon.com/blogs/big-data/identify-source-schema-changes-using-aws-glue/
👍1
Руководство по Human Pose Estimation
Обычно эту задачу решают при помощи глубокого обучения.
Это одна из самых интересных областей исследований, получившая популярность благодаря своей полезности и универсальности — она находит применение в широком спектре сфер, в том числе в гейминге, здравоохранении, AR и спорте.
В этой статье приведён исчерпывающий обзор определения положения тела человека (Human Pose Estimation, HPE) и того, как оно работает. Также в ней рассматриваются различные подходы к решению задачи HPE — классические методы и методы на основе глубокого обучения, метрики и способы оценки, а также многое другое.
Читать: https://habr.com/ru/post/687728/
Обычно эту задачу решают при помощи глубокого обучения.
Это одна из самых интересных областей исследований, получившая популярность благодаря своей полезности и универсальности — она находит применение в широком спектре сфер, в том числе в гейминге, здравоохранении, AR и спорте.
В этой статье приведён исчерпывающий обзор определения положения тела человека (Human Pose Estimation, HPE) и того, как оно работает. Также в ней рассматриваются различные подходы к решению задачи HPE — классические методы и методы на основе глубокого обучения, метрики и способы оценки, а также многое другое.
Читать: https://habr.com/ru/post/687728/
👍2
От идеи до внедрения: как построить систему анализа данных для промышленного предприятия
По данным Barc, ещё в 2015 году компании, использующие Big Data & Analytics, смогли на 8% увеличить доходы и на 10% снизить затраты. Сегодняшний тренд на цифровизацию и импортозамещение подталкивает руководителей активнее изучать и внедрять аналитику данных в работу своих предприятий. И если раньше анонсы о внедрении Big Data в основном были связаны с пилотными проектами, то сегодня промышленные компании всё чаще рассматривают работу с данными как важную часть корпоративной стратегии развития.
Мы занимаемся разработкой ПО для промышленных предприятий, и сегодня обладаем достаточной экспертизой о трудностях, которые могут возникать на каждом из этапов внедрения анализа данных, а также об инструментах для их решения. В этой статье мы разберём весь путь внедрения анализа больших данных на предприятии с использованием этих продуктов.
Читать: https://habr.com/ru/post/688396/
По данным Barc, ещё в 2015 году компании, использующие Big Data & Analytics, смогли на 8% увеличить доходы и на 10% снизить затраты. Сегодняшний тренд на цифровизацию и импортозамещение подталкивает руководителей активнее изучать и внедрять аналитику данных в работу своих предприятий. И если раньше анонсы о внедрении Big Data в основном были связаны с пилотными проектами, то сегодня промышленные компании всё чаще рассматривают работу с данными как важную часть корпоративной стратегии развития.
Мы занимаемся разработкой ПО для промышленных предприятий, и сегодня обладаем достаточной экспертизой о трудностях, которые могут возникать на каждом из этапов внедрения анализа данных, а также об инструментах для их решения. В этой статье мы разберём весь путь внедрения анализа больших данных на предприятии с использованием этих продуктов.
Читать: https://habr.com/ru/post/688396/
Подборка актуальных вакансий
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
— Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 3 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: от 3 лет
— Системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Аналитик в Центр Компетенций R&D
Где: Москва
Опыт: от 3 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
#вакансии #работа
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
— Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 3 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: от 3 лет
— Системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Аналитик в Центр Компетенций R&D
Где: Москва
Опыт: от 3 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
#вакансии #работа
Optimize Amazon EMR costs for legacy and Spark workloads with managed scaling and node labels
Read: https://aws.amazon.com/blogs/big-data/optimize-amazon-emr-costs-for-legacy-and-spark-workloads-with-managed-scaling-and-node-labels/
Read: https://aws.amazon.com/blogs/big-data/optimize-amazon-emr-costs-for-legacy-and-spark-workloads-with-managed-scaling-and-node-labels/
👍1
Brain, Kidney, Cancer Research & Data Contract
Read: https://www.dataengineeringweekly.com/p/brain-kidney-cancer-research-and
Read: https://www.dataengineeringweekly.com/p/brain-kidney-cancer-research-and
👍1
Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud
В данной статье делимся опытом внедрения решения на базе СУБД ClickHouse и сервисов Yandex Cloud. Мы не коснёмся тонких настроек ClickHouse или его масштабирования, но затронем достаточно интересные на наш взгляд темы:
· как загружать данные из On-premise в облачный ClickHouse с использованием сервисов Yandex Cloud – Functions, Object Storage, Message Queue;
· как обрабатывать/преобразовывать данные в облачном ClickHouse – очищать и строить витрины; какие «подводные камни» нам встретились на этом пути.
Читать: https://habr.com/ru/post/688126/
В данной статье делимся опытом внедрения решения на базе СУБД ClickHouse и сервисов Yandex Cloud. Мы не коснёмся тонких настроек ClickHouse или его масштабирования, но затронем достаточно интересные на наш взгляд темы:
· как загружать данные из On-premise в облачный ClickHouse с использованием сервисов Yandex Cloud – Functions, Object Storage, Message Queue;
· как обрабатывать/преобразовывать данные в облачном ClickHouse – очищать и строить витрины; какие «подводные камни» нам встретились на этом пути.
Читать: https://habr.com/ru/post/688126/
👍1🔥1