Katser – Telegram
Katser
2.26K subscribers
93 photos
7 videos
10 files
137 links
Авторский канал @ykatser по data science, машинному обучению и искусственному интеллекту в основном в задачах промышленности, но не только
Download Telegram
🔍Кейс с диагностикой трансформаторов. Часть 3.
Предыдущие части: часть 1, часть 2

Подготовка к обучению
Подошли к самой интересной части — обучению моделей машинного обучения. Так как мы подготовили выборку в виде табличных данных, нам остаются последние приготовления:
• масштабировать данные при необходимости.
• разделить выборку на обучающую и тестовую части.
Может быть важно еще обработать данные, например, уравнять пропорции классов, так как выборка несбалансированная. Тогда есть два основных варианта (об этом подробнее в будущих постах про предварительную обработку):
• оверсэплинг редкого класса
• андерсэплинг частого класса

Обучение моделей
Теперь с чистой душой можно делать фит и предикт! В рамках работы мы попробовали все основные классы методов:
• linear method (Logistic Regression)
• tree-based method (Decision Trees)
• ensemble-based methods (Random Forest, Gradient Boosting)
• neural network (multilayer perceptron)
И действительно после такой предварительной обработки особо ничего кроме фит-предикт больше делать не надо было — результат был довольно хороший.

Ансамбль моделей
В конце концов мы остановились на ансамбле перечисленных выше методов. Ансамбль представляет собой классификатор из XGBoost, построенный на результатах моделей первого уровня: случайного леса, LGBM и многослойного персептрона. Даже не спрашивайте, почему так. Честный ответ — на основе результатов на валидационной выборке. Никакого глубокого смысла в такой конструкции нет. Я мог бы начать рассказывать о том, что ансамблирование моделей разных классов позволяет лучше обобщить данные, добавить робастности, учесть сильные стороны разных подходов, нивелировать слабые и тд. Это все действительно так, но в промышленности лучше использовать более простые модели поэтому городить такие ансамбли надо осторожно. К тому же, даже простые модели типа логистической регрессии в такой постановке задачи уже давали нормальный результат. В общем, для полной картины стоит почитать статью из первого поста.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94❤‍🔥3🤡1
🔬 Все, что вы хотели знать о задаче остаточного ресурса оборудования

Именно так называется моя большая статья на Хабре. Самый полный гайд (из тех, что я встречал) по постановкам в терминах машинного обучения, вариантам данных и способам решения одной из важнейших задач диагностики — определения остаточного ресурса. Периодически апдейчу статью, поэтому на Хабре всегда актуальная версия. Например, недавно добавил новый кейс с этого хакатона, где определение остаточного ресурса было всего лишь 1ой из нескольких задач (о хакатоне подробнее напишу отдельно).

И совсем недавно выпустил уже традиционный перевод статьи на английский язык на медиуме.

🐣А кто не хочет читать — посмотрите мой доклад с ИИшницы. Не такой полный как статьи, но представление о задаче вполне дает.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥83
💼Предиктивная аналитика эксгаустеров. Часть 1
Этот пост в основном о кейсе, но немного и о самом хакатоне. Часть 2 здесь

Задача
Изначально формулировка задачи была примерно следующая:
Разработайте модель, определяющую возможность возникновения нештатной работы оборудования

Что такое эксгаустер? И какая там проблема?
Простым языком об этом рассказано в видео. А вот цитата из статьи ЕВРАЗа на хабре:
А если совсем в двух словах, то эксгаустер — это часть агломерационной машины, он постоянно втягивает горячий воздух и выпускает его в трубу. Внутри него расположен ротор — своего рода вентилятор, который прогоняет раскалённый воздух. Если этот ротор выходит из строя, то перестаёт работать и эксгаустер, и вся агломашина.
При чем здесь Евраз, если задачу на Хакатон ставила Северсталь? Просто недавно ЕВРАЗ проводил очень похожий хакатон (супер актуальная проблема?). Мы решили тогда не участвовать, но в этот раз пропустить не могли

📌 В карточках рассказано о:
• Проблематике
• Задачах с точки зрения DS и технической диагностики
• Подходах к решению задач
• Архитектуре решения

О хакатоне
Про особенности хакатонов рассказывал в отдельной большой статье, здесь тезисно перечислю некоторые моменты:
• Хакатон шел почти месяц с первого дня до финальной защиты (почти все время можно было работать над решением), что является особенностью (обычно это 2-3 дня), кому-то удобно погрузиться в задачу глубоко, кому-то не хочется тратить столько времени с непрогнозируемым результатом
• Не хватало единой точки сбора информации, все было разрозненно (сайт, посты в каналы, ответы на вопросы от экспертов, исходная презентация с задачей), приходилось собирать это все вместе (тренажер реального проекта от организаторов?)
• В положении нет критериев, они появились вместе с задачей и не были взвешены: не понятно, какой вес у каждого критерия, как считаются суммарно баллы и тд. В целом не хватало прозрачности
• До самого конца хакатона нам так и не ответили эксперты на некоторые вопросы. Это нужно принять
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍6❤‍🔥4
💼 Кейс с диагностикой трансформаторов. Часть 4.
Предыдущие части: часть 1, часть 2, часть 3

Еще одной задачей в диагностике трансформаторов является определение или прогнозирование остаточного ресурса (RUL). Подробно о задаче остаточного ресурса я писал здесь.

✏️Статья-туториал по решению задачи под названием “Решение задачи определения RUL трансформаторов с помощью машинного обучения на python” доступна на хабре. В статье продемонстрирован пайплайн решения задачи в регрессионной постановке. Первым этапом в таком случае является агрегация временных рядов, например, за счет выделения статистических характеристик рядов. Механизм агрегации продемонстрирован был мной в этом посте. Статью стоит воспринимать как туториал по решению задачи, который снижает порог входа и мотивирует попробовать решить задачу самостоятельно, а не демонстрацию создания продакшн-рэди решения.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤‍🔥3🔥3
👁‍🗨Гайд для погружения в поиск аномалий во временных рядах

Давно пора собрать накопившиеся материалы в области поиска аномалий в один пост. Пост полезен как гайд для введения в поиск аномалий - есть и теория, и практика, и реальные кейсы для тренировки насмотренности. Конечно, материалы на примере аномалий в технических системах и во временных рядах.

(теория+кейсы) Запись лекции о введении в поиск аномалий: в лекции рассказано о задаче, алгоритмах
(теория+практика) Блокнот на кэгле с практическим воркшопом: в блокноте есть как теория о задаче поиска аномалий, так и практика на примере реализации алгоритма генерации невязки (разладки) с помощью автоэнкодера, а также много ссылок на дополнительные материалы
(практика) Примеры из репозитория со SKAB’ом: в репозитории собрано большое число реализованных в коде алгоритмов обнаружения аномалий с результатами расчетов, ссылками на статьи об алгоритмах и описаниями этих алгоритмов
(кейсы) Репозиторий с реальными кейсами: можно посмотреть, как решается задача поиска аномалий разными компаниями и набраться практического опыта. Кстати, в репозитории теперь появились еще и научные статьи с датасетами

🏌️Еще материалы и посты для более глубокого изучения темы:
Точечные vs коллективные аномалии
О задаче changepoint detection
О глубоком обучении для решения задач поиска аномалий
Обзор метрик обнаружения аномалий
Обзор открытых промышленных данных
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥8👏4❤‍🔥1
👀👀 Обзор метрик обнаружения аномалий

Оценить алгоритмы обнаружения аномалий совсем не просто, поскольку существует множество математических задач и различных метрик, подходящих для конкретных проблем и условий. Часто исследователи и практикующие data scientist’ы берут общепринятую метрику, такую как F1, только потому, что ее настоятельно рекомендуют для задач классификации. Часто это работает, но не всегда! Чтобы помочь избежать неправильного выбора метрик, я решил сделать обзор метрик, используемых для оценки качества решения задач обнаружения аномалий.

Статья на хабре.
Статья на медиуме на английском. Даже есть пример кода.

⚡️Пока даже добавить нечего к статьям. В будущем хотелось бы дополнить формулами, реализовать в коде и провести эксперименты для наглядной демонстрации различия и искажения результатов при выборе различных метрик. Кстати, метрики частично уже (и еще будут) реализованы в рамках разрабатываемого фреймворка для решения промышленных задач, который мы представим вот-вот.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13👏3🔥21
🧑🏻‍💻 Диагностика нефтегазовых трубопроводов с помощью машинного обучения

Начинаю рассказывать более подробно о докладах на DataFest’е 2023. Начнем с кейса применения ML в нефтегазовой отрасли, по нему, кстати, есть вот такой интересный таймлапс!

О докладе
Метод дефектоскопии на основе магнитного потока является наиболее распространенным подходом для неразрушающего контроля нефтегазовых трубопроводов. В результате дефектоскопии получаются магнитограммы, зачастую анализируемые полуавтоматизированными методами (есть софт, но большую работу все равно делают люди), что приводит к снижению точности и увеличению времени анализа. А более быстрый и дешевый анализ может позволить запускать дефектоскопы чаще для лучшего понимания текущей ситуации в трубах.
В докладе я рассказал о применении машинного обучения для автоматической диагностики нефтепроводов. К сожалению, звук на записи получился не очень хороший, но слушать можно.

Немного дополнений
Проект начался почти 4 года назад с хакатона Цифровой прорыв, где мы победили в финале самого массового хакатона в истории (даже в книге рекордов Гиннесса побывал хакатон). Инсайты о проведении хакатона есть у нашего сокомандника в статье на хабре. После хакатона по проекту было довольно много работы, результаты которой я и собрал в докладе. Доклад больше про научно-техническую сторону проекта, как наиболее удачную, почти без организационной и бизнесовой частей. А вот препринт научной статьи, где ML часть задачи обнаружения дефектов раскрыта подробнее.
👍10🔥53❤‍🔥1
🗣Конференции и секции с кейсами применения ML в промышленности

Я уже ранее писал про список кейсов применения машинного обучения в промышленности, который собираю в этом репозитории на гитхабе. Кстати, репозиторий уже разросся обзором статей, датасетов помимо кейсов.
Но на какие российские конференции стоит в будущем обращать внимание, если хочется послушать доклады с подобными кейсами?

У меня есть список конференций, которые смотрю/посещаю сам, делюсь! А вы можете дополнять список в комментариях. 💬

• DataFest от ODS.ai - секция ИИ в промышленности (названия от года к году меняются). Вот в 2020 году, вот в 2023. Обычно именно на этой конференции наиболее отобранные и ML-ориентированные доклады.

AIJourney от Сбера. Раньше были целые секции ИИ в промышленности, сейчас более хаотично, но регулярно встречаются доклады по теме. Часть интересных докладов с первых конференций убрали с ютуба, материалы начиная с 2020 года доступны на ютуб канале. Качество докладов обычно тоже высокое.

OpenTalks.ai. Каждый год есть интересные доклады как в индустриальном, так и в научном треках, но большинсто материалов доступно только на сайте конференции.

Эффективное производство от Цифры. Многие материалы доступны на сайте конференции, но некоторые есть и на ютубе. Немало маркетинговых материалов без сути, мало ML материалов, потому что все-таки конференция не специализируется на ML.

• Канал и сообщество "Индустриальные инновации" периодически проводит конференции, вот пример одной из них.

• Интересные материалы могут быть на Иннопроме и ЦИПРе, хотя прикладных историй с техническими деталями все-таки там не так много, но и цель конференций, насколько я понимаю, немного другая.

• Конференции отдельных промышленных компаний с высоким уровнем развития цифровых компетенций, вот пример ГПН.

• Отраслевые конференции, но их надо знать, довольно специфичная история, не всегда есть публичные материалы.

• Совсем для искушенных: можно посещать различные научно-технические конференции, вот пример из нефтегазовой отрасли.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👏43🔥2❤‍🔥1
🚨 Серия постов о качестве и предварительной обработке временных рядов. Часть 2 Обзор методов предварительной обработки данных.

В первой части серии я поделился своими обзорными докладами и статьями о проблемах во временных рядах. А недавно на DataFest’е на треке reliable ml я представил обзор методов предварительной обработки временных рядов. Запись доклада доступна по ссылке. Важно заметить, что чаще всего предварительная обработка преследует следующие цели:
• Борьба с проблемами в данных
• Подготовка данных к требуемому виду и формату для машинного обучения
• Снижения вычислительной сложности задачи (снижение размерности)
• Повышения качества моделей машинного обучения (например, за счет создания более информативных признаков)
Об этом и многом другом идет речь в докладе.

Кстати, доклад частично основан на обзорной статье, которая была правда чуть больше сфокусирована на технических системах и АЭС в частности. Но конкретных методов, подходов и ссылок на источники там можно найти гораздо больше, чем в докладе.

📌 Помимо моего доклада на треке была куча классного контента (день 1, день 2), очень рекомендую хотя бы проглядеть все, а лучше внимательно посмотреть! И очередной раз благодарю Иру, Диму и всех причастных за крутой трек!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤‍🔥4👍3
💼 Диагностика двигателей самолетов
Еще один интересный кейс применения машинного обучения

Делюсь полезным репозиторием с практическим примером решения двух задач предиктивной аналитики авиадвигателей:
Прогнозирование аномалий — в постановке задачи классификации
Оценка остаточного ресурса (RUL) — в постановке задачи регрессии
Решение задач продемонстрировано на одном из немногих доступных публично наборов данных — NASA Turbofan Jet Engine Data Set. Кстати, по ссылке на кэггле можно посмотреть и другие блокноты с решением задачи на этом датасете!

🔍 А вот еще один репозиторий с решением этой же задачи, где больше информации и деталей о кейсе, доменной области и этапах решения задач. Тоже достоин внимания!

Хорошее прикладное дополнение с кодом к моей статье о RUL, которую представлял ранее.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤‍🔥3🔥2🤯1
🗯Поиск аномалий в работе установок грануляции пресс-порошка двуокиси урана для изготовления топливных таблеток
Еще один кейс применения машинного обучения на производстве

Погружение в проблематику
Одним из важных этапов в производстве топливных таблеток для АЭС является подготовка пресс-порошка. После приготовления пресс-порошок используется в качестве сырья для прессования таблеток, которые в последующем проходят этапы спекания, шлифовки и контроля. Качество работы установок для подготовки пресс-порошка напрямую влияет на качество конечной продукции. В производстве для подготовки пресс-порошка используются установки измельчения и грануляции.

Исходные данные
Ряд важных параметров для оценки технического состояния установки измельчения и грануляции уже собирается в системе сбора данных, имеющейся на предприятии:
• скорость вращения мельницы,
• ток мельницы,
• температура корпуса мельницы,
• температура переднего подшипника,
• температура заднего подшипника.

Кроме данных телеметрии, был доступен журнал технического обслуживания и ремонта (ТОиР), который использовался для выделения периодов стабильной безаварийной работы установки, внеплановых остановов оборудования и видов неисправностей.

Задачи и алгоритм на основе методов машинного обучения
Высокий уровень развития инструментов машинного обучения и накопленные за несколько лет массивы данных о работе оборудования дало возможность определить закономерности в работе установки грануляции и открыло возможности прогнозирования состояния и раннего обнаружения аномалий в работе оборудования. Для этого был разработан алгоритм на базе модели машинного обучения — рекуррентной нейронной сети на основе слоев LSTM (long short-term memory). Более подробно об алгоритме поговорим в следующем посте.

💡Выводы
Результаты проекта внесли вклад в повышение коэффициента использования оборудования по времени: уменьшение количества внеплановых остановов и простоев установок грануляции, раннее обнаружение аномальных отклонений состояния от нормального за счёт автоматизированного мониторинга датчиков и анализа полученных данных.

Доклад об этом кейсе и даже в целом о проекте (решалось несколько кейсов) с AIJourney можете посмотреть по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤‍🔥3🔥31
Katser pinned Deleted message