NEW BOT Телеграм, страница

🔍

Кейс с диагностикой трансформаторов. Часть 3.
Предыдущие части: часть 1, часть 2

Подготовка к обучению
Подошли к самой интересной части — обучению моделей машинного обучения. Так как мы подготовили выборку в виде табличных данных, нам остаются последние приготовления:
• масштабировать данные при необходимости.
• разделить выборку на обучающую и тестовую части.
Может быть важно еще обработать данные, например, уравнять пропорции классов, так как выборка несбалансированная. Тогда есть два основных варианта (об этом подробнее в будущих постах про предварительную обработку):
• оверсэплинг редкого класса
• андерсэплинг частого класса

Обучение моделей
Теперь с чистой душой можно делать фит и предикт! В рамках работы мы попробовали все основные классы методов:
• linear method (Logistic Regression)
• tree-based method (Decision Trees)
• ensemble-based methods (Random Forest, Gradient Boosting)
• neural network (multilayer perceptron)
И действительно после такой предварительной обработки особо ничего кроме фит-предикт больше делать не надо было — результат был довольно хороший.

Ансамбль моделей
В конце концов мы остановились на ансамбле перечисленных выше методов. Ансамбль представляет собой классификатор из XGBoost, построенный на результатах моделей первого уровня: случайного леса, LGBM и многослойного персептрона. Даже не спрашивайте, почему так. Честный ответ — на основе результатов на валидационной выборке. Никакого глубокого смысла в такой конструкции нет. Я мог бы начать рассказывать о том, что ансамблирование моделей разных классов позволяет лучше обобщить данные, добавить робастности, учесть сильные стороны разных подходов, нивелировать слабые и тд. Это все действительно так, но в промышленности лучше использовать более простые модели поэтому городить такие ансамбли надо осторожно. К тому же, даже простые модели типа логистической регрессии в такой постановке задачи уже давали нормальный результат. В общем, для полной картины стоит почитать статью из первого поста.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤4❤‍🔥3🤡1

1.19K views06:02

Katser

🔬

Все, что вы хотели знать о задаче остаточного ресурса оборудования

Именно так называется моя большая статья на Хабре. Самый полный гайд (из тех, что я встречал) по постановкам в терминах машинного обучения, вариантам данных и способам решения одной из важнейших задач диагностики — определения остаточного ресурса. Периодически апдейчу статью, поэтому на Хабре всегда актуальная версия. Например, недавно добавил новый кейс с этого хакатона, где определение остаточного ресурса было всего лишь 1ой из нескольких задач (о хакатоне подробнее напишу отдельно).

И совсем недавно выпустил уже традиционный перевод статьи на английский язык на медиуме.

🐣

А кто не хочет читать — посмотрите мой доклад с ИИшницы. Не такой полный как статьи, но представление о задаче вполне дает.

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Все, что вы хотели знать о задаче определения остаточного ресурса оборудования

Применение искусственного интеллекта и машинного обучения в задачах промышленности не настолько распространено, как в других сферах и отраслях экономики вроде банкинга, ритейла, телекома. При этом...

👍14🔥8❤3

1.48K views05:30

Katser

💼

Предиктивная аналитика эксгаустеров. Часть 1
Этот пост в основном о кейсе, но немного и о самом хакатоне. Часть 2 здесь

Задача
Изначально формулировка задачи была примерно следующая:
Разработайте модель, определяющую возможность возникновения нештатной работы оборудования

Что такое эксгаустер? И какая там проблема?
Простым языком об этом рассказано в видео. А вот цитата из статьи ЕВРАЗа на хабре:
А если совсем в двух словах, то эксгаустер — это часть агломерационной машины, он постоянно втягивает горячий воздух и выпускает его в трубу. Внутри него расположен ротор — своего рода вентилятор, который прогоняет раскалённый воздух. Если этот ротор выходит из строя, то перестаёт работать и эксгаустер, и вся агломашина.
При чем здесь Евраз, если задачу на Хакатон ставила Северсталь? Просто недавно ЕВРАЗ проводил очень похожий хакатон (супер актуальная проблема?). Мы решили тогда не участвовать, но в этот раз пропустить не могли

📌 В карточках рассказано о:
• Проблематике
• Задачах с точки зрения DS и технической диагностики
• Подходах к решению задач
• Архитектуре решения

О хакатоне
Про особенности хакатонов рассказывал в отдельной большой статье, здесь тезисно перечислю некоторые моменты:
• Хакатон шел почти месяц с первого дня до финальной защиты (почти все время можно было работать над решением), что является особенностью (обычно это 2-3 дня), кому-то удобно погрузиться в задачу глубоко, кому-то не хочется тратить столько времени с непрогнозируемым результатом
• Не хватало единой точки сбора информации, все было разрозненно (сайт, посты в каналы, ответы на вопросы от экспертов, исходная презентация с задачей), приходилось собирать это все вместе (тренажер реального проекта от организаторов?)
• В положении нет критериев, они появились вместе с задачей и не были взвешены: не понятно, какой вес у каждого критерия, как считаются суммарно баллы и тд. В целом не хватало прозрачности
• До самого конца хакатона нам так и не ответили эксперты на некоторые вопросы. Это нужно принять

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👍6❤‍🔥4

1.97K viewsedited 04:00

Katser

💼 Кейс с диагностикой трансформаторов. Часть 4.
Предыдущие части: часть 1, часть 2, часть 3

Еще одной задачей в диагностике трансформаторов является определение или прогнозирование остаточного ресурса (RUL). Подробно о задаче остаточного ресурса я писал здесь.

✏️Статья-туториал по решению задачи под названием “Решение задачи определения RUL трансформаторов с помощью машинного обучения на python” доступна на хабре. В статье продемонстрирован пайплайн решения задачи в регрессионной постановке. Первым этапом в таком случае является агрегация временных рядов, например, за счет выделения статистических характеристик рядов. Механизм агрегации продемонстрирован был мной в этом посте. Статью стоит воспринимать как туториал по решению задачи, который снижает порог входа и мотивирует попробовать решить задачу самостоятельно, а не демонстрацию создания продакшн-рэди решения.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤‍🔥3🔥3

1.52K viewsedited 10:59

Katser

👁‍🗨

Гайд для погружения в поиск аномалий во временных рядах

Давно пора собрать накопившиеся материалы в области поиска аномалий в один пост. Пост полезен как гайд для введения в поиск аномалий - есть и теория, и практика, и реальные кейсы для тренировки насмотренности. Конечно, материалы на примере аномалий в технических системах и во временных рядах.

• (теория+кейсы) Запись лекции о введении в поиск аномалий: в лекции рассказано о задаче, алгоритмах
• (теория+практика) Блокнот на кэгле с практическим воркшопом: в блокноте есть как теория о задаче поиска аномалий, так и практика на примере реализации алгоритма генерации невязки (разладки) с помощью автоэнкодера, а также много ссылок на дополнительные материалы
• (практика) Примеры из репозитория со SKAB’ом: в репозитории собрано большое число реализованных в коде алгоритмов обнаружения аномалий с результатами расчетов, ссылками на статьи об алгоритмах и описаниями этих алгоритмов
• (кейсы) Репозиторий с реальными кейсами: можно посмотреть, как решается задача поиска аномалий разными компаниями и набраться практического опыта. Кстати, в репозитории теперь появились еще и научные статьи с датасетами

🏌️Еще материалы и посты для более глубокого изучения темы:
• Точечные vs коллективные аномалии
• О задаче changepoint detection
• О глубоком обучении для решения задач поиска аномалий
• Обзор метрик обнаружения аномалий
• Обзор открытых промышленных данных

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Юрий Кацер: Поиск аномалий в промышленных данных

Лекция образовательного форума МФТИ по математике и искусственному интеллекту Всероссийской олимпиады "Я — профессионал"

Лекция: Кацер Юрий Дмитриевич, эксперт отдела искусственного интеллекта, Частное учреждение по цифровизации атомной отрасли «Цифрум»…

👍14🔥8👏4❤‍🔥1

1.81K viewsedited 04:00

Katser

👀

👀 Обзор метрик обнаружения аномалий

Оценить алгоритмы обнаружения аномалий совсем не просто, поскольку существует множество математических задач и различных метрик, подходящих для конкретных проблем и условий. Часто исследователи и практикующие data scientist’ы берут общепринятую метрику, такую как F1, только потому, что ее настоятельно рекомендуют для задач классификации. Часто это работает, но не всегда! Чтобы помочь избежать неправильного выбора метрик, я решил сделать обзор метрик, используемых для оценки качества решения задач обнаружения аномалий.

• Статья на хабре.
• Статья на медиуме на английском. Даже есть пример кода.

⚡️Пока даже добавить нечего к статьям. В будущем хотелось бы дополнить формулами, реализовать в коде и провести эксперименты для наглядной демонстрации различия и искажения результатов при выборе различных метрик. Кстати, метрики частично уже (и еще будут) реализованы в рамках разрабатываемого фреймворка для решения промышленных задач, который мы представим вот-вот.

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Обзор метрик обнаружения аномалий (плюс много дополнительной информации)

Привет, Хабр! На связи снова Юрий Кацер, эксперт по ML и анализу данных в промышленности, а также руководитель направления предиктивной аналитики в компании «Цифрум» Госкорпорации “Росатом”. До сих...

👍13👏3🔥2❤1

1.8K views04:02

Katser

🧑🏻‍💻 Диагностика нефтегазовых трубопроводов с помощью машинного обучения

Начинаю рассказывать более подробно о докладах на DataFest’е 2023. Начнем с кейса применения ML в нефтегазовой отрасли, по нему, кстати, есть вот такой интересный таймлапс!

О докладе
Метод дефектоскопии на основе магнитного потока является наиболее распространенным подходом для неразрушающего контроля нефтегазовых трубопроводов. В результате дефектоскопии получаются магнитограммы, зачастую анализируемые полуавтоматизированными методами (есть софт, но большую работу все равно делают люди), что приводит к снижению точности и увеличению времени анализа. А более быстрый и дешевый анализ может позволить запускать дефектоскопы чаще для лучшего понимания текущей ситуации в трубах.
В докладе я рассказал о применении машинного обучения для автоматической диагностики нефтепроводов. К сожалению, звук на записи получился не очень хороший, но слушать можно.

Немного дополнений
Проект начался почти 4 года назад с хакатона Цифровой прорыв, где мы победили в финале самого массового хакатона в истории (даже в книге рекордов Гиннесса побывал хакатон). Инсайты о проведении хакатона есть у нашего сокомандника в статье на хабре. После хакатона по проекту было довольно много работы, результаты которой я и собрал в докладе. Доклад больше про научно-техническую сторону проекта, как наиболее удачную, почти без организационной и бизнесовой частей. А вот препринт научной статьи, где ML часть задачи обнаружения дефектов раскрыта подробнее.

YouTube

Юрий Кацер - Диагностика нефтегазовых трубопроводов с помощью машинного обучения

Data Fest 2023:
https://ods.ai/events/datafestonline2023
Трек "ML in Manufacturing":
https://ods.ai/tracks/df23-ml_in_manufacturing

Наши соц.сети:
Telegram: https://news.1rj.ru/str/datafest
Вконтакте: https://vk.com/datafest

👍10🔥5❤3❤‍🔥1

1.41K viewsedited 05:15

Katser

🗣

Конференции и секции с кейсами применения ML в промышленности

Я уже ранее писал про список кейсов применения машинного обучения в промышленности, который собираю в этом репозитории на гитхабе. Кстати, репозиторий уже разросся обзором статей, датасетов помимо кейсов.
Но на какие российские конференции стоит в будущем обращать внимание, если хочется послушать доклады с подобными кейсами?

У меня есть список конференций, которые смотрю/посещаю сам, делюсь! А вы можете дополнять список в комментариях.

💬

• DataFest от ODS.ai - секция ИИ в промышленности (названия от года к году меняются). Вот в 2020 году, вот в 2023. Обычно именно на этой конференции наиболее отобранные и ML-ориентированные доклады.

• AIJourney от Сбера. Раньше были целые секции ИИ в промышленности, сейчас более хаотично, но регулярно встречаются доклады по теме. Часть интересных докладов с первых конференций убрали с ютуба, материалы начиная с 2020 года доступны на ютуб канале. Качество докладов обычно тоже высокое.

• OpenTalks.ai. Каждый год есть интересные доклады как в индустриальном, так и в научном треках, но большинсто материалов доступно только на сайте конференции.

• Эффективное производство от Цифры. Многие материалы доступны на сайте конференции, но некоторые есть и на ютубе. Немало маркетинговых материалов без сути, мало ML материалов, потому что все-таки конференция не специализируется на ML.

• Канал и сообщество "Индустриальные инновации" периодически проводит конференции, вот пример одной из них.

• Интересные материалы могут быть на Иннопроме и ЦИПРе, хотя прикладных историй с техническими деталями все-таки там не так много, но и цель конференций, насколько я понимаю, немного другая.

• Конференции отдельных промышленных компаний с высоким уровнем развития цифровых компетенций, вот пример ГПН.

• Отраслевые конференции, но их надо знать, довольно специфичная история, не всегда есть публичные материалы.

• Совсем для искушенных: можно посещать различные научно-технические конференции, вот пример из нефтегазовой отрасли.

Please open Telegram to view this post

VIEW IN TELEGRAM

Katser

🔎 Несколько лет назад очень разлетелся этот пост под названием “Применение машинного обучения и Data Science в промышленности” (перевод англоязычного поста). Это большой список ссылок с примерами применения AI/ML/DS (обязательно код на python и размещение…

👍6👏4❤3🔥2❤‍🔥1

1.52K views06:00

Katser

🚨 Серия постов о качестве и предварительной обработке временных рядов. Часть 2 — Обзор методов предварительной обработки данных.

В первой части серии я поделился своими обзорными докладами и статьями о проблемах во временных рядах. А недавно на DataFest’е на треке reliable ml я представил обзор методов предварительной обработки временных рядов. Запись доклада доступна по ссылке. Важно заметить, что чаще всего предварительная обработка преследует следующие цели:
• Борьба с проблемами в данных
• Подготовка данных к требуемому виду и формату для машинного обучения
• Снижения вычислительной сложности задачи (снижение размерности)
• Повышения качества моделей машинного обучения (например, за счет создания более информативных признаков)
Об этом и многом другом идет речь в докладе.

Кстати, доклад частично основан на обзорной статье, которая была правда чуть больше сфокусирована на технических системах и АЭС в частности. Но конкретных методов, подходов и ссылок на источники там можно найти гораздо больше, чем в докладе.

📌 Помимо моего доклада на треке была куча классного контента (день 1, день 2), очень рекомендую хотя бы проглядеть все, а лучше внимательно посмотреть! И очередной раз благодарю Иру, Диму и всех причастных за крутой трек!

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Юрий Кацер - Предварительная обработка и поиск аномалий во временных рядах

Скачать презентацию: https://drive.google.com/file/d/1oNbO5IPZbj0WWted3J2AZ4I9k0LSnnHW/view?usp=drive_link

Доклад "Предварительная обработка и поиск аномалий во временных рядах" от Юрия Кацера, эксперта в области применения DS, ML в промышленности, сооснователя…

🔥11❤‍🔥4👍3

1.51K viewsedited 05:02

Katser

💼

Диагностика двигателей самолетов
Еще один интересный кейс применения машинного обучения

Делюсь полезным репозиторием с практическим примером решения двух задач предиктивной аналитики авиадвигателей:
• Прогнозирование аномалий — в постановке задачи классификации
• Оценка остаточного ресурса (RUL) — в постановке задачи регрессии
Решение задач продемонстрировано на одном из немногих доступных публично наборов данных — NASA Turbofan Jet Engine Data Set. Кстати, по ссылке на кэггле можно посмотреть и другие блокноты с решением задачи на этом датасете!

🔍 А вот еще один репозиторий с решением этой же задачи, где больше информации и деталей о кейсе, доменной области и этапах решения задач. Тоже достоин внимания!

Хорошее прикладное дополнение с кодом к моей статье о RUL, которую представлял ранее.

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - archd3sai/Predictive-Maintenance-of-Aircraft-Engine: In this project I aim to apply Various Predictive Maintenance Techniques…

In this project I aim to apply Various Predictive Maintenance Techniques to accurately predict the impending failure of an aircraft turbofan engine. - archd3sai/Predictive-Maintenance-of-Aircraft-E...

👍9❤‍🔥3🔥2🤯1

1.62K viewsedited 05:01

Katser

🗯

Поиск аномалий в работе установок грануляции пресс-порошка двуокиси урана для изготовления топливных таблеток
Еще один кейс применения машинного обучения на производстве

Погружение в проблематику
Одним из важных этапов в производстве топливных таблеток для АЭС является подготовка пресс-порошка. После приготовления пресс-порошок используется в качестве сырья для прессования таблеток, которые в последующем проходят этапы спекания, шлифовки и контроля. Качество работы установок для подготовки пресс-порошка напрямую влияет на качество конечной продукции. В производстве для подготовки пресс-порошка используются установки измельчения и грануляции.

Исходные данные
Ряд важных параметров для оценки технического состояния установки измельчения и грануляции уже собирается в системе сбора данных, имеющейся на предприятии:
• скорость вращения мельницы,
• ток мельницы,
• температура корпуса мельницы,
• температура переднего подшипника,
• температура заднего подшипника.

Кроме данных телеметрии, был доступен журнал технического обслуживания и ремонта (ТОиР), который использовался для выделения периодов стабильной безаварийной работы установки, внеплановых остановов оборудования и видов неисправностей.

Задачи и алгоритм на основе методов машинного обучения
Высокий уровень развития инструментов машинного обучения и накопленные за несколько лет массивы данных о работе оборудования дало возможность определить закономерности в работе установки грануляции и открыло возможности прогнозирования состояния и раннего обнаружения аномалий в работе оборудования. Для этого был разработан алгоритм на базе модели машинного обучения — рекуррентной нейронной сети на основе слоев LSTM (long short-term memory). Более подробно об алгоритме поговорим в следующем посте.

💡

Выводы
Результаты проекта внесли вклад в повышение коэффициента использования оборудования по времени: уменьшение количества внеплановых остановов и простоев установок грануляции, раннее обнаружение аномальных отклонений состояния от нормального за счёт автоматизированного мониторинга датчиков и анализа полученных данных.

Доклад об этом кейсе и даже в целом о проекте (решалось несколько кейсов) с AIJourney можете посмотреть по ссылке.

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

20.12.04//Предиктивная аналитика на МСЗ. Иван Максимов, Госкорпорация «Росатом» (ЧУ «Цифрум»)

#промышленность #росатом #aijourney #искусственныйинтеллект

👍11❤‍🔥3🔥3❤1

1.83K views08:02

Katser

Katser pinned Deleted message

12:06

About

Blog

Apps

Platform