Часть 2.
Продолжение этого поста.
Немного о данных
В данной задаче у нас на входе есть датасеты, представляющие собой многомерные временные ряды. Каждый дотасет содержит 420 точек и 4 признака и является результатами сбора данных каждые 12 часов о содержании газов в трансформаторном масле. При этом, дотасет представляет работу трансформатор в одном из 4х режимов (нормальное состояние и 3 варианта неисправностей). Таким образом, каждой матрице (420 точек х 4 признака) соответствует 1 число - режим работы.
Задача
Задача может формулироваться как классификация временных рядов, так как каждому временному ряду мы должны поставить в соответствие метку режима. Решать ее можно разными способами, но именно постановка задачи как классическая классификация табличных данных (обучения с учителем) обычно дает наилучшие результаты.
Предварительная обработка данных
Для того, чтобы перейти к табличным данным и задаче классификации, надо привести многомерные временные ряды к векторам признаков. Схема приведения показана в карточках к посту:
• Из временного ряда мы выделяем статистические характеристики, избавляясь от временной компоненты и заменяя временной ряд на небольшой набор его статистических характеристик
• Проделываем процедуру для каждого датасета, получая вместо матрицы вектор признаков
• Собираем новую матрицу объекты-признаки, где каждый объект - состояние трансформатора в какой-то период времени, а признаки - статистические характеристики концентраций газов за этот период
• Теперь у нас каждой строке (объекту) датасета соответствует число - номер режима, и мы можем решать задачу классификации с помощью удобных и привычных методов (лог регрессия, случайный лес, град бустинг и тд).
Об этом в следующем посте.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥4❤3❤🔥1
Оффтоп: участвовали тут почти 3 недели в хакатоне ЛЦТ в задаче Северстали по диагностике эксгаустеров (если будете гуглить: найти нужный эксгаустер непросто, подсказка — этот из металлургии).
🥈 До первого места не добрались, но второе тоже хорошо. Возможно, позже подробнее напишу/расскажу об опыте.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👏7❤🔥3🤔1
Предыдущие части: часть 1, часть 2
Подготовка к обучению
Подошли к самой интересной части — обучению моделей машинного обучения. Так как мы подготовили выборку в виде табличных данных, нам остаются последние приготовления:
• масштабировать данные при необходимости.
• разделить выборку на обучающую и тестовую части.
Может быть важно еще обработать данные, например, уравнять пропорции классов, так как выборка несбалансированная. Тогда есть два основных варианта (об этом подробнее в будущих постах про предварительную обработку):
• оверсэплинг редкого класса
• андерсэплинг частого класса
Обучение моделей
Теперь с чистой душой можно делать фит и предикт! В рамках работы мы попробовали все основные классы методов:
• linear method (Logistic Regression)
• tree-based method (Decision Trees)
• ensemble-based methods (Random Forest, Gradient Boosting)
• neural network (multilayer perceptron)
И действительно после такой предварительной обработки особо ничего кроме фит-предикт больше делать не надо было — результат был довольно хороший.
Ансамбль моделей
В конце концов мы остановились на ансамбле перечисленных выше методов. Ансамбль представляет собой классификатор из XGBoost, построенный на результатах моделей первого уровня: случайного леса, LGBM и многослойного персептрона. Даже не спрашивайте, почему так. Честный ответ — на основе результатов на валидационной выборке. Никакого глубокого смысла в такой конструкции нет. Я мог бы начать рассказывать о том, что ансамблирование моделей разных классов позволяет лучше обобщить данные, добавить робастности, учесть сильные стороны разных подходов, нивелировать слабые и тд. Это все действительно так, но в промышленности лучше использовать более простые модели поэтому городить такие ансамбли надо осторожно. К тому же, даже простые модели типа логистической регрессии в такой постановке задачи уже давали нормальный результат. В общем, для полной картины стоит почитать статью из первого поста.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤4❤🔥3🤡1
Именно так называется моя большая статья на Хабре. Самый полный гайд (из тех, что я встречал) по постановкам в терминах машинного обучения, вариантам данных и способам решения одной из важнейших задач диагностики — определения остаточного ресурса. Периодически апдейчу статью, поэтому на Хабре всегда актуальная версия. Например, недавно добавил новый кейс с этого хакатона, где определение остаточного ресурса было всего лишь 1ой из нескольких задач (о хакатоне подробнее напишу отдельно).
И совсем недавно выпустил уже традиционный перевод статьи на английский язык на медиуме.
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Все, что вы хотели знать о задаче определения остаточного ресурса оборудования
Применение искусственного интеллекта и машинного обучения в задачах промышленности не настолько распространено, как в других сферах и отраслях экономики вроде банкинга, ритейла, телекома. При этом...
👍14🔥8❤3
Этот пост в основном о кейсе, но немного и о самом хакатоне. Часть 2 здесь
Задача
Изначально формулировка задачи была примерно следующая:
Разработайте модель, определяющую возможность возникновения нештатной работы оборудования
Что такое эксгаустер? И какая там проблема?
Простым языком об этом рассказано в видео. А вот цитата из статьи ЕВРАЗа на хабре:
А если совсем в двух словах, то эксгаустер — это часть агломерационной машины, он постоянно втягивает горячий воздух и выпускает его в трубу. Внутри него расположен ротор — своего рода вентилятор, который прогоняет раскалённый воздух. Если этот ротор выходит из строя, то перестаёт работать и эксгаустер, и вся агломашина.
При чем здесь Евраз, если задачу на Хакатон ставила Северсталь? Просто недавно ЕВРАЗ проводил очень похожий хакатон (супер актуальная проблема?). Мы решили тогда не участвовать, но в этот раз пропустить не могли
• Проблематике
• Задачах с точки зрения DS и технической диагностики
• Подходах к решению задач
• Архитектуре решения
О хакатоне
Про особенности хакатонов рассказывал в отдельной большой статье, здесь тезисно перечислю некоторые моменты:
• Хакатон шел почти месяц с первого дня до финальной защиты (почти все время можно было работать над решением), что является особенностью (обычно это 2-3 дня), кому-то удобно погрузиться в задачу глубоко, кому-то не хочется тратить столько времени с непрогнозируемым результатом
• Не хватало единой точки сбора информации, все было разрозненно (сайт, посты в каналы, ответы на вопросы от экспертов, исходная презентация с задачей), приходилось собирать это все вместе (тренажер реального проекта от организаторов?)
• В положении нет критериев, они появились вместе с задачей и не были взвешены: не понятно, какой вес у каждого критерия, как считаются суммарно баллы и тд. В целом не хватало прозрачности
• До самого конца хакатона нам так и не ответили эксперты на некоторые вопросы.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍6❤🔥4
💼 Кейс с диагностикой трансформаторов. Часть 4.
Предыдущие части: часть 1, часть 2, часть 3
Еще одной задачей в диагностике трансформаторов является определение или прогнозирование остаточного ресурса (RUL). Подробно о задаче остаточного ресурса я писал здесь.
✏️ Статья-туториал по решению задачи под названием “Решение задачи определения RUL трансформаторов с помощью машинного обучения на python” доступна на хабре. В статье продемонстрирован пайплайн решения задачи в регрессионной постановке. Первым этапом в таком случае является агрегация временных рядов, например, за счет выделения статистических характеристик рядов. Механизм агрегации продемонстрирован был мной в этом посте. Статью стоит воспринимать как туториал по решению задачи, который снижает порог входа и мотивирует попробовать решить задачу самостоятельно, а не демонстрацию создания продакшн-рэди решения.
Предыдущие части: часть 1, часть 2, часть 3
Еще одной задачей в диагностике трансформаторов является определение или прогнозирование остаточного ресурса (RUL). Подробно о задаче остаточного ресурса я писал здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤🔥3🔥3
Давно пора собрать накопившиеся материалы в области поиска аномалий в один пост. Пост полезен как гайд для введения в поиск аномалий - есть и теория, и практика, и реальные кейсы для тренировки насмотренности. Конечно, материалы на примере аномалий в технических системах и во временных рядах.
• (теория+кейсы) Запись лекции о введении в поиск аномалий: в лекции рассказано о задаче, алгоритмах
• (теория+практика) Блокнот на кэгле с практическим воркшопом: в блокноте есть как теория о задаче поиска аномалий, так и практика на примере реализации алгоритма генерации невязки (разладки) с помощью автоэнкодера, а также много ссылок на дополнительные материалы
• (практика) Примеры из репозитория со SKAB’ом: в репозитории собрано большое число реализованных в коде алгоритмов обнаружения аномалий с результатами расчетов, ссылками на статьи об алгоритмах и описаниями этих алгоритмов
• (кейсы) Репозиторий с реальными кейсами: можно посмотреть, как решается задача поиска аномалий разными компаниями и набраться практического опыта. Кстати, в репозитории теперь появились еще и научные статьи с датасетами
• Точечные vs коллективные аномалии
• О задаче changepoint detection
• О глубоком обучении для решения задач поиска аномалий
• Обзор метрик обнаружения аномалий
• Обзор открытых промышленных данных
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Юрий Кацер: Поиск аномалий в промышленных данных
Лекция образовательного форума МФТИ по математике и искусственному интеллекту Всероссийской олимпиады "Я — профессионал"
Лекция: Кацер Юрий Дмитриевич, эксперт отдела искусственного интеллекта, Частное учреждение по цифровизации атомной отрасли «Цифрум»…
Лекция: Кацер Юрий Дмитриевич, эксперт отдела искусственного интеллекта, Частное учреждение по цифровизации атомной отрасли «Цифрум»…
👍14🔥8👏4❤🔥1
Оценить алгоритмы обнаружения аномалий совсем не просто, поскольку существует множество математических задач и различных метрик, подходящих для конкретных проблем и условий. Часто исследователи и практикующие data scientist’ы берут общепринятую метрику, такую как F1, только потому, что ее настоятельно рекомендуют для задач классификации. Часто это работает, но не всегда! Чтобы помочь избежать неправильного выбора метрик, я решил сделать обзор метрик, используемых для оценки качества решения задач обнаружения аномалий.
• Статья на хабре.
• Статья на медиуме на английском. Даже есть пример кода.
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Обзор метрик обнаружения аномалий (плюс много дополнительной информации)
Привет, Хабр! На связи снова Юрий Кацер, эксперт по ML и анализу данных в промышленности, а также руководитель направления предиктивной аналитики в компании «Цифрум» Госкорпорации “Росатом”. До сих...
👍13👏3🔥2❤1
🧑🏻💻 Диагностика нефтегазовых трубопроводов с помощью машинного обучения
Начинаю рассказывать более подробно о докладах на DataFest’е 2023. Начнем с кейса применения ML в нефтегазовой отрасли, по нему, кстати, есть вот такой интересный таймлапс!
О докладе
Метод дефектоскопии на основе магнитного потока является наиболее распространенным подходом для неразрушающего контроля нефтегазовых трубопроводов. В результате дефектоскопии получаются магнитограммы, зачастую анализируемые полуавтоматизированными методами (есть софт, но большую работу все равно делают люди), что приводит к снижению точности и увеличению времени анализа. А более быстрый и дешевый анализ может позволить запускать дефектоскопы чаще для лучшего понимания текущей ситуации в трубах.
В докладе я рассказал о применении машинного обучения для автоматической диагностики нефтепроводов. К сожалению, звук на записи получился не очень хороший, но слушать можно.
Немного дополнений
Проект начался почти 4 года назад с хакатона Цифровой прорыв, где мы победили в финале самого массового хакатона в истории (даже в книге рекордов Гиннесса побывал хакатон). Инсайты о проведении хакатона есть у нашего сокомандника в статье на хабре. После хакатона по проекту было довольно много работы, результаты которой я и собрал в докладе. Доклад больше про научно-техническую сторону проекта, как наиболее удачную, почти без организационной и бизнесовой частей. А вот препринт научной статьи, где ML часть задачи обнаружения дефектов раскрыта подробнее.
Начинаю рассказывать более подробно о докладах на DataFest’е 2023. Начнем с кейса применения ML в нефтегазовой отрасли, по нему, кстати, есть вот такой интересный таймлапс!
О докладе
Метод дефектоскопии на основе магнитного потока является наиболее распространенным подходом для неразрушающего контроля нефтегазовых трубопроводов. В результате дефектоскопии получаются магнитограммы, зачастую анализируемые полуавтоматизированными методами (есть софт, но большую работу все равно делают люди), что приводит к снижению точности и увеличению времени анализа. А более быстрый и дешевый анализ может позволить запускать дефектоскопы чаще для лучшего понимания текущей ситуации в трубах.
В докладе я рассказал о применении машинного обучения для автоматической диагностики нефтепроводов. К сожалению, звук на записи получился не очень хороший, но слушать можно.
Немного дополнений
Проект начался почти 4 года назад с хакатона Цифровой прорыв, где мы победили в финале самого массового хакатона в истории (даже в книге рекордов Гиннесса побывал хакатон). Инсайты о проведении хакатона есть у нашего сокомандника в статье на хабре. После хакатона по проекту было довольно много работы, результаты которой я и собрал в докладе. Доклад больше про научно-техническую сторону проекта, как наиболее удачную, почти без организационной и бизнесовой частей. А вот препринт научной статьи, где ML часть задачи обнаружения дефектов раскрыта подробнее.
YouTube
Юрий Кацер - Диагностика нефтегазовых трубопроводов с помощью машинного обучения
Data Fest 2023:
https://ods.ai/events/datafestonline2023
Трек "ML in Manufacturing":
https://ods.ai/tracks/df23-ml_in_manufacturing
Наши соц.сети:
Telegram: https://news.1rj.ru/str/datafest
Вконтакте: https://vk.com/datafest
https://ods.ai/events/datafestonline2023
Трек "ML in Manufacturing":
https://ods.ai/tracks/df23-ml_in_manufacturing
Наши соц.сети:
Telegram: https://news.1rj.ru/str/datafest
Вконтакте: https://vk.com/datafest
👍10🔥5❤3❤🔥1
Я уже ранее писал про список кейсов применения машинного обучения в промышленности, который собираю в этом репозитории на гитхабе. Кстати, репозиторий уже разросся обзором статей, датасетов помимо кейсов.
Но на какие российские конференции стоит в будущем обращать внимание, если хочется послушать доклады с подобными кейсами?
У меня есть список конференций, которые смотрю/посещаю сам, делюсь! А вы можете дополнять список в комментариях.
• DataFest от ODS.ai - секция ИИ в промышленности (названия от года к году меняются). Вот в 2020 году, вот в 2023. Обычно именно на этой конференции наиболее отобранные и ML-ориентированные доклады.
• AIJourney от Сбера. Раньше были целые секции ИИ в промышленности, сейчас более хаотично, но регулярно встречаются доклады по теме. Часть интересных докладов с первых конференций убрали с ютуба, материалы начиная с 2020 года доступны на ютуб канале. Качество докладов обычно тоже высокое.
• OpenTalks.ai. Каждый год есть интересные доклады как в индустриальном, так и в научном треках, но большинсто материалов доступно только на сайте конференции.
• Эффективное производство от Цифры. Многие материалы доступны на сайте конференции, но некоторые есть и на ютубе. Немало маркетинговых материалов без сути, мало ML материалов, потому что все-таки конференция не специализируется на ML.
• Канал и сообщество "Индустриальные инновации" периодически проводит конференции, вот пример одной из них.
• Интересные материалы могут быть на Иннопроме и ЦИПРе, хотя прикладных историй с техническими деталями все-таки там не так много, но и цель конференций, насколько я понимаю, немного другая.
• Конференции отдельных промышленных компаний с высоким уровнем развития цифровых компетенций, вот пример ГПН.
• Отраслевые конференции, но их надо знать, довольно специфичная история, не всегда есть публичные материалы.
• Совсем для искушенных: можно посещать различные научно-технические конференции, вот пример из нефтегазовой отрасли.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Katser
🔎 Несколько лет назад очень разлетелся этот пост под названием “Применение машинного обучения и Data Science в промышленности” (перевод англоязычного поста). Это большой список ссылок с примерами применения AI/ML/DS (обязательно код на python и размещение…
👍6👏4❤3🔥2❤🔥1
🚨 Серия постов о качестве и предварительной обработке временных рядов. Часть 2 — Обзор методов предварительной обработки данных.
В первой части серии я поделился своими обзорными докладами и статьями о проблемах во временных рядах. А недавно на DataFest’е на треке reliable ml я представил обзор методов предварительной обработки временных рядов. Запись доклада доступна по ссылке. Важно заметить, что чаще всего предварительная обработка преследует следующие цели:
• Борьба с проблемами в данных
• Подготовка данных к требуемому виду и формату для машинного обучения
• Снижения вычислительной сложности задачи (снижение размерности)
• Повышения качества моделей машинного обучения (например, за счет создания более информативных признаков)
Об этом и многом другом идет речь в докладе.
Кстати, доклад частично основан на обзорной статье, которая была правда чуть больше сфокусирована на технических системах и АЭС в частности. Но конкретных методов, подходов и ссылок на источники там можно найти гораздо больше, чем в докладе.
📌 Помимо моего доклада на треке была куча классного контента (день 1, день 2), очень рекомендую хотя бы проглядеть все, а лучше внимательно посмотреть! И очередной раз благодарю Иру, Диму и всех причастных за крутой трек!
В первой части серии я поделился своими обзорными докладами и статьями о проблемах во временных рядах. А недавно на DataFest’е на треке reliable ml я представил обзор методов предварительной обработки временных рядов. Запись доклада доступна по ссылке. Важно заметить, что чаще всего предварительная обработка преследует следующие цели:
• Борьба с проблемами в данных
• Подготовка данных к требуемому виду и формату для машинного обучения
• Снижения вычислительной сложности задачи (снижение размерности)
• Повышения качества моделей машинного обучения (например, за счет создания более информативных признаков)
Об этом и многом другом идет речь в докладе.
Кстати, доклад частично основан на обзорной статье, которая была правда чуть больше сфокусирована на технических системах и АЭС в частности. Но конкретных методов, подходов и ссылок на источники там можно найти гораздо больше, чем в докладе.
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Юрий Кацер - Предварительная обработка и поиск аномалий во временных рядах
Скачать презентацию: https://drive.google.com/file/d/1oNbO5IPZbj0WWted3J2AZ4I9k0LSnnHW/view?usp=drive_link
Доклад "Предварительная обработка и поиск аномалий во временных рядах" от Юрия Кацера, эксперта в области применения DS, ML в промышленности, сооснователя…
Доклад "Предварительная обработка и поиск аномалий во временных рядах" от Юрия Кацера, эксперта в области применения DS, ML в промышленности, сооснователя…
🔥11❤🔥4👍3
Еще один интересный кейс применения машинного обучения
Делюсь полезным репозиторием с практическим примером решения двух задач предиктивной аналитики авиадвигателей:
• Прогнозирование аномалий — в постановке задачи классификации
• Оценка остаточного ресурса (RUL) — в постановке задачи регрессии
Решение задач продемонстрировано на одном из немногих доступных публично наборов данных — NASA Turbofan Jet Engine Data Set. Кстати, по ссылке на кэггле можно посмотреть и другие блокноты с решением задачи на этом датасете!
Хорошее прикладное дополнение с кодом к моей статье о RUL, которую представлял ранее.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - archd3sai/Predictive-Maintenance-of-Aircraft-Engine: In this project I aim to apply Various Predictive Maintenance Techniques…
In this project I aim to apply Various Predictive Maintenance Techniques to accurately predict the impending failure of an aircraft turbofan engine. - archd3sai/Predictive-Maintenance-of-Aircraft-E...
👍9❤🔥3🔥2🤯1