What about safety
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/09/what-about-safety.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/09/what-about-safety.html
👍1
Кто такой дата-аналитик в X5 Tech
Привет, Хабр! На связи отдел аналитики данных X5 Tech.
По мере развития технологий больших данных в сфере Data Science продолжает оформляться всё большее количество направлений, а уже существующие становятся более обособленными.
Тем не менее до сих пор многие с трудом могут ответить на вопрос чем занимается дата-аналитик.
В одной компании в его сферу обязанностей входит построение отчётов для бизнеса, в другой — дизайн и проведение АБ-экспериментов, а в третьей — подготовка витрин данных.
Поэтому вопрос "Так кто же такой этот ваш дата-аналитик?" мы слышим часто и хотим сегодня об этом поговорить.
Цель данной статьи — ответить на вопросы:
Читать: https://habr.com/ru/post/687554/
Привет, Хабр! На связи отдел аналитики данных X5 Tech.
По мере развития технологий больших данных в сфере Data Science продолжает оформляться всё большее количество направлений, а уже существующие становятся более обособленными.
Тем не менее до сих пор многие с трудом могут ответить на вопрос чем занимается дата-аналитик.
В одной компании в его сферу обязанностей входит построение отчётов для бизнеса, в другой — дизайн и проведение АБ-экспериментов, а в третьей — подготовка витрин данных.
Поэтому вопрос "Так кто же такой этот ваш дата-аналитик?" мы слышим часто и хотим сегодня об этом поговорить.
Цель данной статьи — ответить на вопросы:
Читать: https://habr.com/ru/post/687554/
Fine-grained ennoscriptments in Amazon Redshift: A case study from TrustLogix
Read: https://aws.amazon.com/blogs/big-data/fine-grained-ennoscriptments-in-amazon-redshift-a-case-study-from-trustlogix/
Read: https://aws.amazon.com/blogs/big-data/fine-grained-ennoscriptments-in-amazon-redshift-a-case-study-from-trustlogix/
👍1
Как устроена виртуальная машина SQLite
SQL – концептуально странный язык. Вы пишете ваше приложение на одном языке, скажем, на JavaScript, а затем направляете базе данных команды, написанные на совершенно другом языке – SQL. После этого база данных компилирует и оптимизирует эту команду на SQL, выполняет ее и возвращает вам данные. Такой метод кажется ужасно неэффективным, но, все-таки, ваше приложение может проделывать сотни таких операций в секунду. Просто безумие!
Но на самом деле всё ещё страньше.
Читать: https://habr.com/ru/post/687994/
SQL – концептуально странный язык. Вы пишете ваше приложение на одном языке, скажем, на JavaScript, а затем направляете базе данных команды, написанные на совершенно другом языке – SQL. После этого база данных компилирует и оптимизирует эту команду на SQL, выполняет ее и возвращает вам данные. Такой метод кажется ужасно неэффективным, но, все-таки, ваше приложение может проделывать сотни таких операций в секунду. Просто безумие!
Но на самом деле всё ещё страньше.
Читать: https://habr.com/ru/post/687994/
👍1
Choose the k-NN algorithm for your billion-scale use case with OpenSearch
Read: https://aws.amazon.com/blogs/big-data/choose-the-k-nn-algorithm-for-your-billion-scale-use-case-with-opensearch/
Read: https://aws.amazon.com/blogs/big-data/choose-the-k-nn-algorithm-for-your-billion-scale-use-case-with-opensearch/
👍2
Как обезличить персональные данные
Для ML-моделей не нужны (и даже вредны) персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные. Как их получить и как с ними работать? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными?
Меня зовут Алексей Нейман, я исполнительный директор Ассоциации больших данных. В этой статье попробуем разобраться в этих вопросах.
Читать: https://habr.com/ru/post/688116/
Для ML-моделей не нужны (и даже вредны) персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные. Как их получить и как с ними работать? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными?
Меня зовут Алексей Нейман, я исполнительный директор Ассоциации больших данных. В этой статье попробуем разобраться в этих вопросах.
Читать: https://habr.com/ru/post/688116/
👍2
Как базы данных «ключ-значение» обеспечивают производительность и масштабируемость без границ
Команда VK Cloud перевела статью о базах «ключ-значение». Вы узнаете, в чем их преимущества перед другими БД, какие базы работают по этому принципу и чем они отличаются между собой.
В чем суть баз «ключ-значение»
Суть проста — объекты в них хранятся и извлекаются с помощью ключа. Так мы прощаемся с:
* таблицами, столбцами и вводом ant data — всем, что можно так или иначе назвать blob-объектом;
* отношениями между объектами;
* сложными операциями.
Что же мы получаем взамен, когда отбрасываем все это?
Читать: https://habr.com/ru/post/685402/
Команда VK Cloud перевела статью о базах «ключ-значение». Вы узнаете, в чем их преимущества перед другими БД, какие базы работают по этому принципу и чем они отличаются между собой.
В чем суть баз «ключ-значение»
Суть проста — объекты в них хранятся и извлекаются с помощью ключа. Так мы прощаемся с:
* таблицами, столбцами и вводом ant data — всем, что можно так или иначе назвать blob-объектом;
* отношениями между объектами;
* сложными операциями.
Что же мы получаем взамен, когда отбрасываем все это?
Читать: https://habr.com/ru/post/685402/
Run Apache Spark with Amazon EMR on EKS backed by Amazon FSx for Lustre storage
Read: https://aws.amazon.com/blogs/big-data/run-apache-spark-with-amazon-emr-on-eks-backed-by-amazon-fsx-for-lustre-storage/
Read: https://aws.amazon.com/blogs/big-data/run-apache-spark-with-amazon-emr-on-eks-backed-by-amazon-fsx-for-lustre-storage/
👍1
Identify source schema changes using AWS Glue
Read: https://aws.amazon.com/blogs/big-data/identify-source-schema-changes-using-aws-glue/
Read: https://aws.amazon.com/blogs/big-data/identify-source-schema-changes-using-aws-glue/
👍1
Руководство по Human Pose Estimation
Обычно эту задачу решают при помощи глубокого обучения.
Это одна из самых интересных областей исследований, получившая популярность благодаря своей полезности и универсальности — она находит применение в широком спектре сфер, в том числе в гейминге, здравоохранении, AR и спорте.
В этой статье приведён исчерпывающий обзор определения положения тела человека (Human Pose Estimation, HPE) и того, как оно работает. Также в ней рассматриваются различные подходы к решению задачи HPE — классические методы и методы на основе глубокого обучения, метрики и способы оценки, а также многое другое.
Читать: https://habr.com/ru/post/687728/
Обычно эту задачу решают при помощи глубокого обучения.
Это одна из самых интересных областей исследований, получившая популярность благодаря своей полезности и универсальности — она находит применение в широком спектре сфер, в том числе в гейминге, здравоохранении, AR и спорте.
В этой статье приведён исчерпывающий обзор определения положения тела человека (Human Pose Estimation, HPE) и того, как оно работает. Также в ней рассматриваются различные подходы к решению задачи HPE — классические методы и методы на основе глубокого обучения, метрики и способы оценки, а также многое другое.
Читать: https://habr.com/ru/post/687728/
👍2
От идеи до внедрения: как построить систему анализа данных для промышленного предприятия
По данным Barc, ещё в 2015 году компании, использующие Big Data & Analytics, смогли на 8% увеличить доходы и на 10% снизить затраты. Сегодняшний тренд на цифровизацию и импортозамещение подталкивает руководителей активнее изучать и внедрять аналитику данных в работу своих предприятий. И если раньше анонсы о внедрении Big Data в основном были связаны с пилотными проектами, то сегодня промышленные компании всё чаще рассматривают работу с данными как важную часть корпоративной стратегии развития.
Мы занимаемся разработкой ПО для промышленных предприятий, и сегодня обладаем достаточной экспертизой о трудностях, которые могут возникать на каждом из этапов внедрения анализа данных, а также об инструментах для их решения. В этой статье мы разберём весь путь внедрения анализа больших данных на предприятии с использованием этих продуктов.
Читать: https://habr.com/ru/post/688396/
По данным Barc, ещё в 2015 году компании, использующие Big Data & Analytics, смогли на 8% увеличить доходы и на 10% снизить затраты. Сегодняшний тренд на цифровизацию и импортозамещение подталкивает руководителей активнее изучать и внедрять аналитику данных в работу своих предприятий. И если раньше анонсы о внедрении Big Data в основном были связаны с пилотными проектами, то сегодня промышленные компании всё чаще рассматривают работу с данными как важную часть корпоративной стратегии развития.
Мы занимаемся разработкой ПО для промышленных предприятий, и сегодня обладаем достаточной экспертизой о трудностях, которые могут возникать на каждом из этапов внедрения анализа данных, а также об инструментах для их решения. В этой статье мы разберём весь путь внедрения анализа больших данных на предприятии с использованием этих продуктов.
Читать: https://habr.com/ru/post/688396/
Подборка актуальных вакансий
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
— Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 3 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: от 3 лет
— Системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Аналитик в Центр Компетенций R&D
Где: Москва
Опыт: от 3 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
#вакансии #работа
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
— Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 3 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: от 3 лет
— Системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Аналитик в Центр Компетенций R&D
Где: Москва
Опыт: от 3 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
#вакансии #работа
Optimize Amazon EMR costs for legacy and Spark workloads with managed scaling and node labels
Read: https://aws.amazon.com/blogs/big-data/optimize-amazon-emr-costs-for-legacy-and-spark-workloads-with-managed-scaling-and-node-labels/
Read: https://aws.amazon.com/blogs/big-data/optimize-amazon-emr-costs-for-legacy-and-spark-workloads-with-managed-scaling-and-node-labels/
👍1
Brain, Kidney, Cancer Research & Data Contract
Read: https://www.dataengineeringweekly.com/p/brain-kidney-cancer-research-and
Read: https://www.dataengineeringweekly.com/p/brain-kidney-cancer-research-and
👍1
Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud
В данной статье делимся опытом внедрения решения на базе СУБД ClickHouse и сервисов Yandex Cloud. Мы не коснёмся тонких настроек ClickHouse или его масштабирования, но затронем достаточно интересные на наш взгляд темы:
· как загружать данные из On-premise в облачный ClickHouse с использованием сервисов Yandex Cloud – Functions, Object Storage, Message Queue;
· как обрабатывать/преобразовывать данные в облачном ClickHouse – очищать и строить витрины; какие «подводные камни» нам встретились на этом пути.
Читать: https://habr.com/ru/post/688126/
В данной статье делимся опытом внедрения решения на базе СУБД ClickHouse и сервисов Yandex Cloud. Мы не коснёмся тонких настроек ClickHouse или его масштабирования, но затронем достаточно интересные на наш взгляд темы:
· как загружать данные из On-premise в облачный ClickHouse с использованием сервисов Yandex Cloud – Functions, Object Storage, Message Queue;
· как обрабатывать/преобразовывать данные в облачном ClickHouse – очищать и строить витрины; какие «подводные камни» нам встретились на этом пути.
Читать: https://habr.com/ru/post/688126/
👍1🔥1
Как переносить данные из S3 в BigQuery с помощью Meltano
Создание пайплайнов для трансфера данных — рутинная задача Data-инженеров. Чтобы ее решить, многие копируют код коннекторов из одного проекта в другой. Из-за копипаста общая структура ломается, и в перспективе может возникнуть трудность с поддержкой проекта.
Источников данных много — Яндекс.Директ, Google Analytics и другие. По отдельности они не дают нужной картины, — данные всё равно приходится собирать в один Data Warehouse. Тут на помощь приходит Meltano: он позволяет стандартизировать написание коннекторов к различным источникам данных и быстро перенести все нужные данные.
Читать: https://habr.com/ru/post/686976/
Создание пайплайнов для трансфера данных — рутинная задача Data-инженеров. Чтобы ее решить, многие копируют код коннекторов из одного проекта в другой. Из-за копипаста общая структура ломается, и в перспективе может возникнуть трудность с поддержкой проекта.
Источников данных много — Яндекс.Директ, Google Analytics и другие. По отдельности они не дают нужной картины, — данные всё равно приходится собирать в один Data Warehouse. Тут на помощь приходит Meltano: он позволяет стандартизировать написание коннекторов к различным источникам данных и быстро перенести все нужные данные.
Читать: https://habr.com/ru/post/686976/
👍1
Как мы не взяли золото на Каггл или умей верно выбрать сабмит
Привет, чемпион!
Мы тут недавно потратили месяц на соревнование «UW-Madison GI Tract Image Segmentation» и не взяли золото. Золотую медаль не взяли, но теперь у каждого из нас есть первая бронза. И сейчас мы кратко расскажем про сработавшие подходы в сегментации. А еще расскажем, что можно было сделать, чтоб все-таки забрать золото. (Спойлер: мы были в шаге от золота ...)
Читать: https://habr.com/ru/post/688660/
Привет, чемпион!
Мы тут недавно потратили месяц на соревнование «UW-Madison GI Tract Image Segmentation» и не взяли золото. Золотую медаль не взяли, но теперь у каждого из нас есть первая бронза. И сейчас мы кратко расскажем про сработавшие подходы в сегментации. А еще расскажем, что можно было сделать, чтоб все-таки забрать золото. (Спойлер: мы были в шаге от золота ...)
Читать: https://habr.com/ru/post/688660/
👍1
Как локализовать гигантскую платформу в России на примере AliExpress
Ребята из AliExpress делятся собственным опытом локализации платформы. В этой статье они рассказали об адаптации поиска и рекомендаций, а также о создании инфраструктуры.
Подробнее: https://tprg.ru/l5dC
Ребята из AliExpress делятся собственным опытом локализации платформы. В этой статье они рассказали об адаптации поиска и рекомендаций, а также о создании инфраструктуры.
Подробнее: https://tprg.ru/l5dC
👍3
How ZS created a multi-tenant self-service data orchestration platform using Amazon MWAA
Read: https://aws.amazon.com/blogs/big-data/how-zs-created-a-multi-tenant-self-service-data-orchestration-platform-using-amazon-mwaa/
Read: https://aws.amazon.com/blogs/big-data/how-zs-created-a-multi-tenant-self-service-data-orchestration-platform-using-amazon-mwaa/
👍1
Data Engineering Weekly #101
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-101
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-101
👍1
Подготовка датасета для машинного обучения: 10 базовых способов совершенствования данных
У Колумбийского университета есть хорошая история о плохих данных. Проект в сфере здравоохранения был нацелен на снижение затрат на лечение пациентов с пневмонией. В нём использовалось машинное обучение (machine learning, ML) для автоматической сортировки записей пациентов, чтобы выбрать тех, у кого опасность смертельного исхода минимальна (они могут принимать антибиотики дома), и тех, у кого опасность смертельного исхода высока (их нужно лечить в больнице). Команда разработчиков использовала исторические данные из клиник, а алгоритм был точным.
Но за одним важным исключением. Одним из наиболее опасных состояний при пневмонии является астма, поэтому врачи всегда отправляют астматиков в отделение интенсивной терапии, что приводило к минимизации уровня смертности для этих пациентов. Благодаря отсутствию смертельных случаев у астматиков в данных алгоритм предположил, что астма не так уж опасна при пневмонии, и во всех случаях машина рекомендовала отправлять астматиков домой, несмотря на то, что для них риск осложнений при пневмонии был наибольшим.
ML сильно зависит от данных. Это самый критически важный аспект, благодаря которому и возможно обучение алгоритма; именно поэтому машинное обучение стало столь популярным в последние годы. Но вне зависимости от терабайтов информации и экспертизы в data science, если ты не можешь понять смысл записей данных, то машина будет практически бесполезной, а иногда и наносить вред.
Читать: https://habr.com/ru/post/684580/
У Колумбийского университета есть хорошая история о плохих данных. Проект в сфере здравоохранения был нацелен на снижение затрат на лечение пациентов с пневмонией. В нём использовалось машинное обучение (machine learning, ML) для автоматической сортировки записей пациентов, чтобы выбрать тех, у кого опасность смертельного исхода минимальна (они могут принимать антибиотики дома), и тех, у кого опасность смертельного исхода высока (их нужно лечить в больнице). Команда разработчиков использовала исторические данные из клиник, а алгоритм был точным.
Но за одним важным исключением. Одним из наиболее опасных состояний при пневмонии является астма, поэтому врачи всегда отправляют астматиков в отделение интенсивной терапии, что приводило к минимизации уровня смертности для этих пациентов. Благодаря отсутствию смертельных случаев у астматиков в данных алгоритм предположил, что астма не так уж опасна при пневмонии, и во всех случаях машина рекомендовала отправлять астматиков домой, несмотря на то, что для них риск осложнений при пневмонии был наибольшим.
ML сильно зависит от данных. Это самый критически важный аспект, благодаря которому и возможно обучение алгоритма; именно поэтому машинное обучение стало столь популярным в последние годы. Но вне зависимости от терабайтов информации и экспертизы в data science, если ты не можешь понять смысл записей данных, то машина будет практически бесполезной, а иногда и наносить вред.
Читать: https://habr.com/ru/post/684580/
👍6🔥1