Если вы устраняете систематическую ошибку модели, то уже слишком поздно
Введение
Машинное обучение — это технологический прорыв, случающийся раз в поколение. Однако с ростом его популярности основной проблемой становятся систематические ошибки алгоритма. Если модели ML не обучаются на репрезентативных данных, у них могут развиться серьёзные систематические ошибки, оказывающие существенный вред недостаточно представленным группам и приводящие к созданию неэффективных продуктов. Мы изучили массив данных CoNLL-2003, являющийся стандартом для создания алгоритмов распознавания именованных сущностей в тексте, и выяснили, что в данных присутствует серьёзный перекос в сторону мужских имён. При помощи наших технологии мы смогли компенсировать эту систематическую ошибку:
1. Мы обогатили данные, чтобы выявить сокрытые систематические ошибки
2. Дополнили массив данных недостаточно представленными примерами, чтобы компенсировать гендерный перекос
Модель, обученная на нашем расширенном массиве данных CoNLL-2003, характеризуется снижением систематической ошибки и повышенной точностью, и это показывает, что систематическую ошибку можно устранить без каких-либо изменений в модели. Мы выложили в open source наши аннотации Named Entity Recognition для исходного массива данных CoNLL-2003, а также его улучшенную версию, скачать их можно здесь.
Читать: https://habr.com/ru/post/657123/
Введение
Машинное обучение — это технологический прорыв, случающийся раз в поколение. Однако с ростом его популярности основной проблемой становятся систематические ошибки алгоритма. Если модели ML не обучаются на репрезентативных данных, у них могут развиться серьёзные систематические ошибки, оказывающие существенный вред недостаточно представленным группам и приводящие к созданию неэффективных продуктов. Мы изучили массив данных CoNLL-2003, являющийся стандартом для создания алгоритмов распознавания именованных сущностей в тексте, и выяснили, что в данных присутствует серьёзный перекос в сторону мужских имён. При помощи наших технологии мы смогли компенсировать эту систематическую ошибку:
1. Мы обогатили данные, чтобы выявить сокрытые систематические ошибки
2. Дополнили массив данных недостаточно представленными примерами, чтобы компенсировать гендерный перекос
Модель, обученная на нашем расширенном массиве данных CoNLL-2003, характеризуется снижением систематической ошибки и повышенной точностью, и это показывает, что систематическую ошибку можно устранить без каких-либо изменений в модели. Мы выложили в open source наши аннотации Named Entity Recognition для исходного массива данных CoNLL-2003, а также его улучшенную версию, скачать их можно здесь.
Читать: https://habr.com/ru/post/657123/
Оперативная аналитика данных. Knime & MongoDB
В предыдущей статье я вкратце упомянул, что Knime умеет работать с базами данных, в том числе с NoSQL базой MongoDB. На мой взгляд, MongoDB является довольно простым и эффективным решением для хранения информации, представленной в виде коллекций документов, состоящих из различных наборов полей и, по сути, являющихся обычными JSON файлами. Мне показалась интересным попробовать связку Knime - MongoDB в действии. Именно этой связке и посвящена данная статья.
Читать: https://habr.com/ru/post/663146/
В предыдущей статье я вкратце упомянул, что Knime умеет работать с базами данных, в том числе с NoSQL базой MongoDB. На мой взгляд, MongoDB является довольно простым и эффективным решением для хранения информации, представленной в виде коллекций документов, состоящих из различных наборов полей и, по сути, являющихся обычными JSON файлами. Мне показалась интересным попробовать связку Knime - MongoDB в действии. Именно этой связке и посвящена данная статья.
Читать: https://habr.com/ru/post/663146/
Amazon EMR on Amazon EKS provides up to 61% lower costs and up to 68% performance improvement for Spark workloads
Read: https://aws.amazon.com/blogs/big-data/amazon-emr-on-amazon-eks-provides-up-to-61-lower-costs-and-up-to-68-performance-improvement-for-spark-workloads/
Read: https://aws.amazon.com/blogs/big-data/amazon-emr-on-amazon-eks-provides-up-to-61-lower-costs-and-up-to-68-performance-improvement-for-spark-workloads/
Real-time analytics with Amazon Redshift streaming ingestion
Read: https://aws.amazon.com/blogs/big-data/real-time-analytics-with-amazon-redshift-streaming-ingestion/
Read: https://aws.amazon.com/blogs/big-data/real-time-analytics-with-amazon-redshift-streaming-ingestion/
Make your data shine: learn to build custom data visualizations in your own applications using Oracle Analytics Cloud and the new JSON-based semantic model markup language
Make your data shine: learn to build custom data visualizations in your own applications using Oracle Analytics Cloud and the new JSON-based semantic model markup language.
Read: https://blogs.oracle.com/analytics/post/make-your-data-shine-learn-to-build-custom-data-visualizations-in-your-own-applications-using-oracle-analytics-cloud-and-the-new-json-based-semantic-model-markup-language
Make your data shine: learn to build custom data visualizations in your own applications using Oracle Analytics Cloud and the new JSON-based semantic model markup language.
Read: https://blogs.oracle.com/analytics/post/make-your-data-shine-learn-to-build-custom-data-visualizations-in-your-own-applications-using-oracle-analytics-cloud-and-the-new-json-based-semantic-model-markup-language
Oracle
Make your data shine: learn to build custom data visualizations in your own applications using Oracle Analytics Cloud and the new…
Make your data shine: learn to build custom data visualizations in your own applications using Oracle Analytics Cloud and the new JSON-based semantic model markup language.
👍1
The Data Founder Story: Shipyard
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-shipyard
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-shipyard
Настоящее и будущее дата-инжиниринга
Future Indefinite — Oculus (Cover art) by Rowye
Несколько лет назад дата-сайентистов часто называли «единорогами». Все искали гениального full-stack-инженера-математика, способного вникнуть во все бизнес-проблемы.
В последние два года мы пережили хайп по поводу AI/ML и стали свидетелями быстрого подъема профессии «дата-инженер». По данным отчета Dice о технических специальностях, в 2020 году потребность в дата-инженерах резко возросла ни много ни мало на 50 % — эта специальность быстро развивается.
Команда разработки облачной платформы VK Cloud Solution перевела статью о том, чего ждут от дата-инженеров сейчас и каким станет дата-инжиниринг в будущем.
Читать: https://habr.com/ru/post/661777/
Future Indefinite — Oculus (Cover art) by Rowye
Несколько лет назад дата-сайентистов часто называли «единорогами». Все искали гениального full-stack-инженера-математика, способного вникнуть во все бизнес-проблемы.
В последние два года мы пережили хайп по поводу AI/ML и стали свидетелями быстрого подъема профессии «дата-инженер». По данным отчета Dice о технических специальностях, в 2020 году потребность в дата-инженерах резко возросла ни много ни мало на 50 % — эта специальность быстро развивается.
Команда разработки облачной платформы VK Cloud Solution перевела статью о том, чего ждут от дата-инженеров сейчас и каким станет дата-инжиниринг в будущем.
Читать: https://habr.com/ru/post/661777/
Data Science и математика: самые важные разделы науки в освоении профессии
Data Science — быстро развивающееся направление, без которого сейчас невозможно обойтись ни в одной отрасли бизнеса или науки. Сырые и неструктурированные данные — кладезь информации. Но для того чтобы ее получить в нужном виде, требуется приложить немало усилий. А объемы таких сырых данных зашкаливают — каждый день, по статистике, человечество генерирует около 2,5 квинтиллиона байт.
Для обработки всего этого необходимы специалисты — чем больше, тем лучше. Основной инструмент в их руках — математика. Сегодня обсудим, какие разделы науки наиболее востребованы в профессии. Об этом мы поговорили с Кириллом Шмидтом, Product analyst Team Lead в корпорации Citrix (США) и автором профессии Data Analyst в Skillbox. Сразу стоит сказать, что статья рассчитана на новичков. Что же, приступим.
Читать: https://habr.com/ru/post/663508/
Data Science — быстро развивающееся направление, без которого сейчас невозможно обойтись ни в одной отрасли бизнеса или науки. Сырые и неструктурированные данные — кладезь информации. Но для того чтобы ее получить в нужном виде, требуется приложить немало усилий. А объемы таких сырых данных зашкаливают — каждый день, по статистике, человечество генерирует около 2,5 квинтиллиона байт.
Для обработки всего этого необходимы специалисты — чем больше, тем лучше. Основной инструмент в их руках — математика. Сегодня обсудим, какие разделы науки наиболее востребованы в профессии. Об этом мы поговорили с Кириллом Шмидтом, Product analyst Team Lead в корпорации Citrix (США) и автором профессии Data Analyst в Skillbox. Сразу стоит сказать, что статья рассчитана на новичков. Что же, приступим.
Читать: https://habr.com/ru/post/663508/
👍1
Secure data movement across Amazon S3 and Amazon Redshift using role chaining and ASSUMEROLE
Read: https://aws.amazon.com/blogs/big-data/secure-data-movement-across-amazon-s3-and-amazon-redshift-using-role-chaining-and-assumerole/
Read: https://aws.amazon.com/blogs/big-data/secure-data-movement-across-amazon-s3-and-amazon-redshift-using-role-chaining-and-assumerole/
«Восход» на пути к «идеальному» обществу…
Всем пятничного и хорошего настроения накануне майских праздников!
Решил накропать философскую статью. Рассчитываю, что в связи с текущей обстановкой в мире, она особенно "зайдет".
Итак, давайте вообразим , что человечество созрело до понимания того, что текущая потребительская модель общества не совершенна и ее необходимо менять. Логично, что это должен быть некий антипод - допустим, назовем это "идеальная" модель общества. Но как нам совершить переход от потребительской модели к "идеальной"? А что, если создать некий "идеальный" программный комплекс, который поможет нам искоренить коррупцию, найти эффективные отрасли экономики, убрать неэффективные отрасли, придумать новые технологии? Так сказать, BigData на службе общества...
Читать: https://habr.com/ru/post/663706/
Всем пятничного и хорошего настроения накануне майских праздников!
Решил накропать философскую статью. Рассчитываю, что в связи с текущей обстановкой в мире, она особенно "зайдет".
Итак, давайте вообразим , что человечество созрело до понимания того, что текущая потребительская модель общества не совершенна и ее необходимо менять. Логично, что это должен быть некий антипод - допустим, назовем это "идеальная" модель общества. Но как нам совершить переход от потребительской модели к "идеальной"? А что, если создать некий "идеальный" программный комплекс, который поможет нам искоренить коррупцию, найти эффективные отрасли экономики, убрать неэффективные отрасли, придумать новые технологии? Так сказать, BigData на службе общества...
Читать: https://habr.com/ru/post/663706/
🤔1
Квантовый хэдж фонд: что интересного для IT специалиста?
Всем привет! Это моя первая статья на Хабр. Меня зовут Артем Сосульников и я директор по разработке ПО в Luxoft. В IT больше 15 лет: начинал как Java разработчик, прошел долгий путь от тим лида и руководителя проектов до директора по разработке ПО с сотней людей в подчинении. В связи с последними событиями в ближайшее время собираюсь с семьей переезжать на остров Пенанг в Малайзию и присоединиться к Люксофт.Малайзия. Там продолжу развитие своих проектов в квантовых хэдж фондах, куда мы теперь нанимаем людей в Сербии, Мексике и Малайзии. Буду писать статьи про жизнь в Малайзии и про работу в Люксофт.
Читать: https://habr.com/ru/post/663846/
Всем привет! Это моя первая статья на Хабр. Меня зовут Артем Сосульников и я директор по разработке ПО в Luxoft. В IT больше 15 лет: начинал как Java разработчик, прошел долгий путь от тим лида и руководителя проектов до директора по разработке ПО с сотней людей в подчинении. В связи с последними событиями в ближайшее время собираюсь с семьей переезжать на остров Пенанг в Малайзию и присоединиться к Люксофт.Малайзия. Там продолжу развитие своих проектов в квантовых хэдж фондах, куда мы теперь нанимаем людей в Сербии, Мексике и Малайзии. Буду писать статьи про жизнь в Малайзии и про работу в Люксофт.
Читать: https://habr.com/ru/post/663846/
👍1
Любопытные и неочевидные особенности при работе со Snowflake
Без долгих вступлений, сразу к делу.
Знаете ли вы, что в Snowflake можно создавать объекты с пустыми именами? Например:
Это работает на момент публикации и потенциально создаёт массу проблем для внешних систем, которые не ожидают такого поворота. Также это обычно приводит в восторг админов DWH.
Более интересные и практичные советы под катом.
Читать: https://habr.com/ru/post/663922/
Без долгих вступлений, сразу к делу.
Знаете ли вы, что в Snowflake можно создавать объекты с пустыми именами? Например:
CREATE DATABASE ""; CREATE SCHEMA ""."";Это работает на момент публикации и потенциально создаёт массу проблем для внешних систем, которые не ожидают такого поворота. Также это обычно приводит в восторг админов DWH.
Более интересные и практичные советы под катом.
Читать: https://habr.com/ru/post/663922/
Accessing Object Storage Via Oracle Analytics Cloud
This blog looks at the steps needed to access the Oracle Object Storage through OAC
Read: https://blogs.oracle.com/analytics/post/accessing-object-storage-via-oracle-analytics-cloud
This blog looks at the steps needed to access the Oracle Object Storage through OAC
Read: https://blogs.oracle.com/analytics/post/accessing-object-storage-via-oracle-analytics-cloud
Oracle
Accessing Object Storage Via Oracle Analytics Cloud
This blog looks at the steps needed to access the Oracle Object Storage through OAC
Access Apache Livy using a Network Load Balancer on a Kerberos-enabled Amazon EMR cluster
Read: https://aws.amazon.com/blogs/big-data/access-apache-livy-using-a-network-load-balancer-on-a-kerberos-enabled-amazon-emr-cluster/
Read: https://aws.amazon.com/blogs/big-data/access-apache-livy-using-a-network-load-balancer-on-a-kerberos-enabled-amazon-emr-cluster/
Top Amazon QuickSight features and updates launched Q1 2022
Read: https://aws.amazon.com/blogs/big-data/top-amazon-quicksight-features-and-updates-launched-q1-2022/
Read: https://aws.amazon.com/blogs/big-data/top-amazon-quicksight-features-and-updates-launched-q1-2022/
Data-Science-процессы: Jupyter Notebook для продакшена
Jovian Blues by ShootingStarLogBook
Рефакторинг написанного в Notebook кода для запуска в продакшене — трудная и ресурсоемкая задача. Команда VK Cloud Solutions перевела материал о том, как с помощью MLOps-инструментов и приемов сократить время от исследования до запуска решения. Описанное в статье — результат структурированного опыта дата-сайентистов и ML-разработчиков из сотен компаний.
Читать: https://habr.com/ru/post/662734/
Jovian Blues by ShootingStarLogBook
Рефакторинг написанного в Notebook кода для запуска в продакшене — трудная и ресурсоемкая задача. Команда VK Cloud Solutions перевела материал о том, как с помощью MLOps-инструментов и приемов сократить время от исследования до запуска решения. Описанное в статье — результат структурированного опыта дата-сайентистов и ML-разработчиков из сотен компаний.
Читать: https://habr.com/ru/post/662734/
Какой у вас профессиональный уровень в IT?
Anonymous Poll
7%
Не имею профессионального/учебного интереса в IT
34%
Ещё не работаю в IT
11%
Intern / Стажер-разработчик или т.п.
10%
Junior / Младший разработчик или т.п.
7%
Middle / «Миддл»
5%
Senior / Старший разработчик или т.п.
5%
(Team) Lead / Руководитель команды, группы и т.п. или ведущий разработчик
3%
Руководитель разработки, департамента, топ-менеджер
15%
Связан с IT, но не занимаюсь и не руковожу разработкой (дизайнер, аналитик, продакт, ...)
3%
Другое (пожалуйста, укажите в комментариях ваш вариант)
Use Amazon Kinesis Data Firehose to extract data insights with Coralogix
Read: https://aws.amazon.com/blogs/big-data/use-amazon-kinesis-data-firehose-to-extract-data-insights-with-coralogix/
Read: https://aws.amazon.com/blogs/big-data/use-amazon-kinesis-data-firehose-to-extract-data-insights-with-coralogix/
👍1
«Божественная комедия», или Девять кругов прогнозирования промо спроса в «Магните»
Привет, Хабр! На связи команда направления прогнозирования промо в «Магните». В предыдущей статье «Магнитная аномалия: как предсказать продажи промо в ритейле» мы дали читателю общее представление о том, чем занимается наша команда. Теперь поговорим о конкретных сложностях и методах их решения, с которыми нам приходится сталкиваться в работе.
Чтобы лучше разобраться во внутренней кухне, предлагаем читателю вместе прогуляться по нашим «девяти кругам прогнозирования промо спроса».
Читать: https://habr.com/ru/post/664358/
Привет, Хабр! На связи команда направления прогнозирования промо в «Магните». В предыдущей статье «Магнитная аномалия: как предсказать продажи промо в ритейле» мы дали читателю общее представление о том, чем занимается наша команда. Теперь поговорим о конкретных сложностях и методах их решения, с которыми нам приходится сталкиваться в работе.
Чтобы лучше разобраться во внутренней кухне, предлагаем читателю вместе прогуляться по нашим «девяти кругам прогнозирования промо спроса».
Читать: https://habr.com/ru/post/664358/
👍4
Simplify your ETL and ML pipelines using the Amazon Athena UNLOAD feature
Read: https://aws.amazon.com/blogs/big-data/simplify-your-etl-and-ml-pipelines-using-the-amazon-athena-unload-feature/
Read: https://aws.amazon.com/blogs/big-data/simplify-your-etl-and-ml-pipelines-using-the-amazon-athena-unload-feature/