Причина и следствие
Мы привыкли, что Machine Learning предоставляет нам большое количество предиктивных методов, которые с каждым годом предсказывают события лучше и лучше. Деревья, леса, бустинги, нейронные сети, обучение с подкреплением и другие алгоритмы машинного обучения позволяют предвидеть будущее все более отчетливо. Казалось бы, что нужно еще? Просто улучшать методы и тогда мы рано или поздно будем жить в будущем так же спокойно, как и в настоящем. Однако не все так просто.
Когда мы рассматриваем бизнес задачи, мы часто сталкиваемся с двумя моментами. Во-первых, мы хотим понять что к чему относится и что с чем связано. Нам важна интерпретация. Чем сложнее модели мы используем, тем более нелинейные они. Тем больше они похожи на черную коробку, в которой очень сложно выявить связи, понятные человеческому разуму. Все же мы привыкли мыслить довольно линейно или близко к тому. Во-вторых, мы хотим понять - если мы подергаем вот эту "ручку", изменится ли результат в будущем и насколько? То есть, мы хотим увидеть причинно-следственную связь между нашим целевым событием и некоторым фактором. Как сказал Рубин - без манипуляции нет причинно следственной связи. Мы часто ошибочно принимаем обыкновенную корреляцию за эту связь. В этой серии статей мы сконцентрируемся на причинах и следствиях.
Но что не так с привычными нам методами ML? Мы строим модель, а значит, предсказывая значение целевого события мы можем менять значение одного из факторов - одной из фич и тогда мы получим соответствующее изменение таргета. Вот нам и предсказание. Все не так просто. По конструкции, большинство ML методов отлично выявляют корреляцию между признаком и таргетом, но ничего не говорят о том, произошло ли изменение целевого события именно из-за изменения значения фичи. То есть, ничего не говорят нам о том - что здесь было причиной, а что следствием.
Читать: https://habr.com/ru/post/657747/
Мы привыкли, что Machine Learning предоставляет нам большое количество предиктивных методов, которые с каждым годом предсказывают события лучше и лучше. Деревья, леса, бустинги, нейронные сети, обучение с подкреплением и другие алгоритмы машинного обучения позволяют предвидеть будущее все более отчетливо. Казалось бы, что нужно еще? Просто улучшать методы и тогда мы рано или поздно будем жить в будущем так же спокойно, как и в настоящем. Однако не все так просто.
Когда мы рассматриваем бизнес задачи, мы часто сталкиваемся с двумя моментами. Во-первых, мы хотим понять что к чему относится и что с чем связано. Нам важна интерпретация. Чем сложнее модели мы используем, тем более нелинейные они. Тем больше они похожи на черную коробку, в которой очень сложно выявить связи, понятные человеческому разуму. Все же мы привыкли мыслить довольно линейно или близко к тому. Во-вторых, мы хотим понять - если мы подергаем вот эту "ручку", изменится ли результат в будущем и насколько? То есть, мы хотим увидеть причинно-следственную связь между нашим целевым событием и некоторым фактором. Как сказал Рубин - без манипуляции нет причинно следственной связи. Мы часто ошибочно принимаем обыкновенную корреляцию за эту связь. В этой серии статей мы сконцентрируемся на причинах и следствиях.
Но что не так с привычными нам методами ML? Мы строим модель, а значит, предсказывая значение целевого события мы можем менять значение одного из факторов - одной из фич и тогда мы получим соответствующее изменение таргета. Вот нам и предсказание. Все не так просто. По конструкции, большинство ML методов отлично выявляют корреляцию между признаком и таргетом, но ничего не говорят о том, произошло ли изменение целевого события именно из-за изменения значения фичи. То есть, ничего не говорят нам о том - что здесь было причиной, а что следствием.
Читать: https://habr.com/ru/post/657747/
Scrape all Naver Video Results using pagination in Python
What will be scraped
Prerequisites
Full Code
Links
Outro
What will be scraped
Title, link, thumbnail, origin, views, date published, channel from all results.
📌Note: Naver Search does not provide more than 600 video search results for the b...
Read: https://serpapi.hashnode.dev/scrape-all-naver-video-results-using-pagination-in-python
What will be scraped
Prerequisites
Full Code
Links
Outro
What will be scraped
Title, link, thumbnail, origin, views, date published, channel from all results.
📌Note: Naver Search does not provide more than 600 video search results for the b...
Read: https://serpapi.hashnode.dev/scrape-all-naver-video-results-using-pagination-in-python
Оптимальный маршрут доставки, скидки от срока годности и подбор одежды онлайн: 3 примера машинного обучения в e-com
Чем больше у компании клиентов, тем выше объем полезных данных, на которых аналитики могут обучить предсказательные модели. Поэтому для развития логистических алгоритмов особый интерес представляют научные публикации исследователей из крупных азиатских, европейских и американских компаний.
Дата-сайентист из команды СберМаркета Дмитрий Руденко рассмотрел три научных статьи, посвященных применению машинного обучения для доставки товаров в международной компании Zalando и в двух китайских компаниях Meituan и Alibaba.
Читать: https://habr.com/ru/post/654869/
Чем больше у компании клиентов, тем выше объем полезных данных, на которых аналитики могут обучить предсказательные модели. Поэтому для развития логистических алгоритмов особый интерес представляют научные публикации исследователей из крупных азиатских, европейских и американских компаний.
Дата-сайентист из команды СберМаркета Дмитрий Руденко рассмотрел три научных статьи, посвященных применению машинного обучения для доставки товаров в международной компании Zalando и в двух китайских компаниях Meituan и Alibaba.
Читать: https://habr.com/ru/post/654869/
👍1
Launching The Data Founder Story Edition
Read: https://www.dataengineeringweekly.com/p/launching-the-data-founder-story
Read: https://www.dataengineeringweekly.com/p/launching-the-data-founder-story
Как работать со смещениями онлайн-панелей: методы и ML-алгоритмы коррекции
Если вы проводите панельные исследования, то обязательно столкнетесь с одним из главных вызовов – набрать выборку достаточного размера, которая будет достоверно отражать важные для исследования параметры генеральной совокупности. Набрать большую и качественную, а значит несмещенную выборку с применением оффлайн-рекрутмента дорого и проблематично. Однако существует альтернативный вариант – это онлайн-рекрутмент, который давно зарекомендовал себя как максимально быстрый, простой и дешевый способ привлечь респондентов для различных исследований. В то же время выборки, набранные в интернете, являются неслучайными и, как правило, искажены по ряду параметров, даже если процедура рекрутирования была хорошо спланирована. В этой статье мы расскажем о методе Propensity Score Adjustment, который применили для коррекции смещений и улучшения данных, полученных на онлайн-панелях. Этот алгоритм помогает калибровать (уточнять) вклад респондентов, набранных в панель онлайн.
Читать
Читать: https://habr.com/ru/post/657813/
Если вы проводите панельные исследования, то обязательно столкнетесь с одним из главных вызовов – набрать выборку достаточного размера, которая будет достоверно отражать важные для исследования параметры генеральной совокупности. Набрать большую и качественную, а значит несмещенную выборку с применением оффлайн-рекрутмента дорого и проблематично. Однако существует альтернативный вариант – это онлайн-рекрутмент, который давно зарекомендовал себя как максимально быстрый, простой и дешевый способ привлечь респондентов для различных исследований. В то же время выборки, набранные в интернете, являются неслучайными и, как правило, искажены по ряду параметров, даже если процедура рекрутирования была хорошо спланирована. В этой статье мы расскажем о методе Propensity Score Adjustment, который применили для коррекции смещений и улучшения данных, полученных на онлайн-панелях. Этот алгоритм помогает калибровать (уточнять) вклад респондентов, набранных в панель онлайн.
Читать
Читать: https://habr.com/ru/post/657813/
Применение Propensity Score Adjustment для коррекции смещений в онлайн-панелях
Это вторая часть нашего рассказа о работе со смещениями оценок медиа активности респондентов онлайн-панелей. В предыдущей статье мы разобрали саму проблему, причины возникновения смещений и способы их коррекции, а теперь более подробно остановимся на практическом применении алгоритма Propensity Score Adjustment для коррекции реальных онлайн-данных.
Читать
Читать: https://habr.com/ru/post/657827/
Это вторая часть нашего рассказа о работе со смещениями оценок медиа активности респондентов онлайн-панелей. В предыдущей статье мы разобрали саму проблему, причины возникновения смещений и способы их коррекции, а теперь более подробно остановимся на практическом применении алгоритма Propensity Score Adjustment для коррекции реальных онлайн-данных.
Читать
Читать: https://habr.com/ru/post/657827/
Ускорение семантической сегментации при помощи машинного обучения
Зачем создавать процесс разметки данных на основе ML?
Быстрое создание высококачественной разметки данных — сложная задача. Парсинг и правильное аннотирование изображений и видео, обычно используемых в сфере беспилотного транспорта или робототехники, могут быть композиционно сложны даже для людей. Наша компания использует машинное обучение, чтобы дополнить реализуемые людьми рабочие процессы, позволяя повысить и качество, и скорость разметки. Так как модели глубокого обучения могут испытывать трудности с устойчивой производительностью в предметных областях с большим разнообразием данных, например, в сценах с участием беспилотных автомобилей, для обеспечения стабильно высокого качества необходимо найти оптимальный баланс между ML-автоматизацией и человеческим контролем.
Читать: https://habr.com/ru/post/655227/
Зачем создавать процесс разметки данных на основе ML?
Быстрое создание высококачественной разметки данных — сложная задача. Парсинг и правильное аннотирование изображений и видео, обычно используемых в сфере беспилотного транспорта или робототехники, могут быть композиционно сложны даже для людей. Наша компания использует машинное обучение, чтобы дополнить реализуемые людьми рабочие процессы, позволяя повысить и качество, и скорость разметки. Так как модели глубокого обучения могут испытывать трудности с устойчивой производительностью в предметных областях с большим разнообразием данных, например, в сценах с участием беспилотных автомобилей, для обеспечения стабильно высокого качества необходимо найти оптимальный баланс между ML-автоматизацией и человеческим контролем.
Читать: https://habr.com/ru/post/655227/
👍1
Orchestrating Data Pipelines at Lyft: Comparing Flyte and Airflow
This article was originally published on the Lyft Engineering blog on March 25th, 2022.
Introduction
In a data-driven company like Lyft, data is the core backbone for many application components. Data analytics gives us the incentives for improving e...
Read: https://blog.flyte.org/orchestrating-data-pipelines-at-lyft-comparing-flyte-and-airflow
This article was originally published on the Lyft Engineering blog on March 25th, 2022.
Introduction
In a data-driven company like Lyft, data is the core backbone for many application components. Data analytics gives us the incentives for improving e...
Read: https://blog.flyte.org/orchestrating-data-pipelines-at-lyft-comparing-flyte-and-airflow
👍2
Analysing American Baby Name Trends with Python
Introduction to EDA
Exploratory data analysis (or EDA) is a way to analyse data sets in order to summarize or to know about their main characteristics, often by analysing trends and through graphics and other data visualisation methods.
We try to fin...
Read: https://rishav10.hashnode.dev/analysing-american-baby-name-trends-with-python
Introduction to EDA
Exploratory data analysis (or EDA) is a way to analyse data sets in order to summarize or to know about their main characteristics, often by analysing trends and through graphics and other data visualisation methods.
We try to fin...
Read: https://rishav10.hashnode.dev/analysing-american-baby-name-trends-with-python
Up to 15 times improvement in Hive write performance with the Amazon EMR Hive zero-rename feature
Read: https://aws.amazon.com/blogs/big-data/up-to-15-times-improvement-in-hive-write-performance-with-the-amazon-emr-hive-zero-rename-feature/
Read: https://aws.amazon.com/blogs/big-data/up-to-15-times-improvement-in-hive-write-performance-with-the-amazon-emr-hive-zero-rename-feature/
JavaScript редактор диаграмм, который открывает диаграммы из PNG картинок (open source)
dgrm.net | GitHub
dgrm.net - это редактор диаграмм, с прицелом на трансформацию в карту знаний.
Отличительные особенности:
- аскетичность,
- работает на телефонах (одно из немногих web-решений),
- открытый исходный код.
В процессе разработки появляются интересные моменты. Статья про один из таких моментов: чтение данных из PNG.
Исходный код для использования в своих проектах прилагается.
Читать: https://habr.com/ru/post/658109/
dgrm.net | GitHub
dgrm.net - это редактор диаграмм, с прицелом на трансформацию в карту знаний.
Отличительные особенности:
- аскетичность,
- работает на телефонах (одно из немногих web-решений),
- открытый исходный код.
В процессе разработки появляются интересные моменты. Статья про один из таких моментов: чтение данных из PNG.
Исходный код для использования в своих проектах прилагается.
Читать: https://habr.com/ru/post/658109/
Docker Everything Bagel: как развернуть локальный стек данных
Container au Havre pour les 500 ans by 0Lifea.
При разработке Open-source-проекта важно помогать пользователям и оставлять рекомендации. Но чтобы это делать, иногда нужно буквально «прочувствовать их боль»: воссоздать их рабочую среду, запустить тот же код и посмотреть на ту же ошибку. А учитывая сложность современных стеков данных, это бывает непросто.
Команда Kubernetes aaS VK Cloud Solutions перевела статью об инструменте Everything Bagel, который позволяет эффективнее работать с локальными стеками данных.
Читать: https://habr.com/ru/post/657207/
Container au Havre pour les 500 ans by 0Lifea.
При разработке Open-source-проекта важно помогать пользователям и оставлять рекомендации. Но чтобы это делать, иногда нужно буквально «прочувствовать их боль»: воссоздать их рабочую среду, запустить тот же код и посмотреть на ту же ошибку. А учитывая сложность современных стеков данных, это бывает непросто.
Команда Kubernetes aaS VK Cloud Solutions перевела статью об инструменте Everything Bagel, который позволяет эффективнее работать с локальными стеками данных.
Читать: https://habr.com/ru/post/657207/
👍2
Циклы и функционалы в языке R (бесплатный видео курс)
Одним из лучших и правильных инвестиций времени в кризис является обучение. В этой статье я расскажу о новом, бесплатном курсе по языку R.
В данной публикации вы найдёте ссылку на курс, подробное описание курса и программу.
Читать: https://habr.com/ru/post/651979/
Одним из лучших и правильных инвестиций времени в кризис является обучение. В этой статье я расскажу о новом, бесплатном курсе по языку R.
В данной публикации вы найдёте ссылку на курс, подробное описание курса и программу.
Читать: https://habr.com/ru/post/651979/
Scrape Google Scholar Metrics Results to CSV with Python
What will be scraped
📌Note: you have an option to save CSV file from public access mandates but there will be no funder link. This blog post shows how to scrape funder link.
If you don't need an explanation:
try the code in the online IDE.
Pre...
Read: https://serpapi.hashnode.dev/scrape-google-scholar-metrics-results-to-csv-with-python
What will be scraped
📌Note: you have an option to save CSV file from public access mandates but there will be no funder link. This blog post shows how to scrape funder link.
If you don't need an explanation:
try the code in the online IDE.
Pre...
Read: https://serpapi.hashnode.dev/scrape-google-scholar-metrics-results-to-csv-with-python
Маркетинговая аналитика на Python. Пишем код для RFM-сегментации
RFM - классический инструмент маркетинга для сегментации вашей клиентской базы. Я использую ее для работы в В2В, В2G сегменте. В основе него - понятные управленцу ценности: LTV и Purchase Frequency. Как можно строить сегменты с помощью Python - читайте в материале.
Читать: https://habr.com/ru/post/658225/
RFM - классический инструмент маркетинга для сегментации вашей клиентской базы. Я использую ее для работы в В2В, В2G сегменте. В основе него - понятные управленцу ценности: LTV и Purchase Frequency. Как можно строить сегменты с помощью Python - читайте в материале.
Читать: https://habr.com/ru/post/658225/
The Data Founder Story: Time to Zingg! By Sonal Goyal
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-time-to-zingg
Read: https://www.dataengineeringweekly.com/p/the-data-founder-story-time-to-zingg
Date range query on partitioned date columns on pyspark
In the recent past I have been working on spark. One of the fundamental requirements which you will come across on spark is to filter the data on a partitioned date range. If you are lucky and the data is a flat partition using date, then the query i...
Read: https://sharathmysore.hashnode.dev/date-range-query-on-partitioned-date-columns-on-pyspark
In the recent past I have been working on spark. One of the fundamental requirements which you will come across on spark is to filter the data on a partitioned date range. If you are lucky and the data is a flat partition using date, then the query i...
Read: https://sharathmysore.hashnode.dev/date-range-query-on-partitioned-date-columns-on-pyspark
Основные тренды ЦОД в 2022 году и примеры проектов
Привет, Хабр! Компания Acer снова с вами! Мы планируем рассказывать об интересных продуктах: как своих, так и других участников рынка. В первую очередь речь пойдет о серверах и соответствующих корпоративных решениях.
Сегодня же публикуем первый свой пост – это аналитика наиболее заметных трендов на рынке ЦОД в 2022 году. Главный принцип, по которому мы отбирали тренды – наличие примеров практического внедрения. Кроме того, мы расскажем о необычных разновидностях дата-центров, которых становится все больше.
Читать: https://habr.com/ru/post/658357/
Привет, Хабр! Компания Acer снова с вами! Мы планируем рассказывать об интересных продуктах: как своих, так и других участников рынка. В первую очередь речь пойдет о серверах и соответствующих корпоративных решениях.
Сегодня же публикуем первый свой пост – это аналитика наиболее заметных трендов на рынке ЦОД в 2022 году. Главный принцип, по которому мы отбирали тренды – наличие примеров практического внедрения. Кроме того, мы расскажем о необычных разновидностях дата-центров, которых становится все больше.
Читать: https://habr.com/ru/post/658357/
Use Amazon CodeGuru Profiler to monitor and optimize performance in Amazon Kinesis Data Analytics applications for Apache Flink
Read: https://aws.amazon.com/blogs/big-data/use-amazon-codeguru-profiler-to-monitor-and-optimize-performance-in-amazon-kinesis-data-analytics-applications-for-apache-flink/
Read: https://aws.amazon.com/blogs/big-data/use-amazon-codeguru-profiler-to-monitor-and-optimize-performance-in-amazon-kinesis-data-analytics-applications-for-apache-flink/
👍1
Persist and analyze metadata in a transient Amazon MWAA environment
Read: https://aws.amazon.com/blogs/big-data/persist-and-analyze-metadata-in-a-transient-amazon-mwaa-environment/
Read: https://aws.amazon.com/blogs/big-data/persist-and-analyze-metadata-in-a-transient-amazon-mwaa-environment/
Oracle Analytics platform for both business and IT-led analytics
Learn about mode 1 and mode 2 analytics, and why every organization needs both.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-platform-for-both-business-and-it-led-analytics
Learn about mode 1 and mode 2 analytics, and why every organization needs both.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-platform-for-both-business-and-it-led-analytics