Katser – Telegram
Katser
2.26K subscribers
93 photos
7 videos
10 files
137 links
Авторский канал @ykatser по data science, машинному обучению и искусственному интеллекту в основном в задачах промышленности, но не только
Download Telegram
💼Предиктивная аналитика эксгаустеров. Часть 1
Этот пост в основном о кейсе, но немного и о самом хакатоне. Часть 2 здесь

Задача
Изначально формулировка задачи была примерно следующая:
Разработайте модель, определяющую возможность возникновения нештатной работы оборудования

Что такое эксгаустер? И какая там проблема?
Простым языком об этом рассказано в видео. А вот цитата из статьи ЕВРАЗа на хабре:
А если совсем в двух словах, то эксгаустер — это часть агломерационной машины, он постоянно втягивает горячий воздух и выпускает его в трубу. Внутри него расположен ротор — своего рода вентилятор, который прогоняет раскалённый воздух. Если этот ротор выходит из строя, то перестаёт работать и эксгаустер, и вся агломашина.
При чем здесь Евраз, если задачу на Хакатон ставила Северсталь? Просто недавно ЕВРАЗ проводил очень похожий хакатон (супер актуальная проблема?). Мы решили тогда не участвовать, но в этот раз пропустить не могли

📌 В карточках рассказано о:
• Проблематике
• Задачах с точки зрения DS и технической диагностики
• Подходах к решению задач
• Архитектуре решения

О хакатоне
Про особенности хакатонов рассказывал в отдельной большой статье, здесь тезисно перечислю некоторые моменты:
• Хакатон шел почти месяц с первого дня до финальной защиты (почти все время можно было работать над решением), что является особенностью (обычно это 2-3 дня), кому-то удобно погрузиться в задачу глубоко, кому-то не хочется тратить столько времени с непрогнозируемым результатом
• Не хватало единой точки сбора информации, все было разрозненно (сайт, посты в каналы, ответы на вопросы от экспертов, исходная презентация с задачей), приходилось собирать это все вместе (тренажер реального проекта от организаторов?)
• В положении нет критериев, они появились вместе с задачей и не были взвешены: не понятно, какой вес у каждого критерия, как считаются суммарно баллы и тд. В целом не хватало прозрачности
• До самого конца хакатона нам так и не ответили эксперты на некоторые вопросы. Это нужно принять
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍6❤‍🔥4
💼 Кейс с диагностикой трансформаторов. Часть 4.
Предыдущие части: часть 1, часть 2, часть 3

Еще одной задачей в диагностике трансформаторов является определение или прогнозирование остаточного ресурса (RUL). Подробно о задаче остаточного ресурса я писал здесь.

✏️Статья-туториал по решению задачи под названием “Решение задачи определения RUL трансформаторов с помощью машинного обучения на python” доступна на хабре. В статье продемонстрирован пайплайн решения задачи в регрессионной постановке. Первым этапом в таком случае является агрегация временных рядов, например, за счет выделения статистических характеристик рядов. Механизм агрегации продемонстрирован был мной в этом посте. Статью стоит воспринимать как туториал по решению задачи, который снижает порог входа и мотивирует попробовать решить задачу самостоятельно, а не демонстрацию создания продакшн-рэди решения.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤‍🔥3🔥3
👁‍🗨Гайд для погружения в поиск аномалий во временных рядах

Давно пора собрать накопившиеся материалы в области поиска аномалий в один пост. Пост полезен как гайд для введения в поиск аномалий - есть и теория, и практика, и реальные кейсы для тренировки насмотренности. Конечно, материалы на примере аномалий в технических системах и во временных рядах.

(теория+кейсы) Запись лекции о введении в поиск аномалий: в лекции рассказано о задаче, алгоритмах
(теория+практика) Блокнот на кэгле с практическим воркшопом: в блокноте есть как теория о задаче поиска аномалий, так и практика на примере реализации алгоритма генерации невязки (разладки) с помощью автоэнкодера, а также много ссылок на дополнительные материалы
(практика) Примеры из репозитория со SKAB’ом: в репозитории собрано большое число реализованных в коде алгоритмов обнаружения аномалий с результатами расчетов, ссылками на статьи об алгоритмах и описаниями этих алгоритмов
(кейсы) Репозиторий с реальными кейсами: можно посмотреть, как решается задача поиска аномалий разными компаниями и набраться практического опыта. Кстати, в репозитории теперь появились еще и научные статьи с датасетами

🏌️Еще материалы и посты для более глубокого изучения темы:
Точечные vs коллективные аномалии
О задаче changepoint detection
О глубоком обучении для решения задач поиска аномалий
Обзор метрик обнаружения аномалий
Обзор открытых промышленных данных
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥8👏4❤‍🔥1
👀👀 Обзор метрик обнаружения аномалий

Оценить алгоритмы обнаружения аномалий совсем не просто, поскольку существует множество математических задач и различных метрик, подходящих для конкретных проблем и условий. Часто исследователи и практикующие data scientist’ы берут общепринятую метрику, такую как F1, только потому, что ее настоятельно рекомендуют для задач классификации. Часто это работает, но не всегда! Чтобы помочь избежать неправильного выбора метрик, я решил сделать обзор метрик, используемых для оценки качества решения задач обнаружения аномалий.

Статья на хабре.
Статья на медиуме на английском. Даже есть пример кода.

⚡️Пока даже добавить нечего к статьям. В будущем хотелось бы дополнить формулами, реализовать в коде и провести эксперименты для наглядной демонстрации различия и искажения результатов при выборе различных метрик. Кстати, метрики частично уже (и еще будут) реализованы в рамках разрабатываемого фреймворка для решения промышленных задач, который мы представим вот-вот.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13👏3🔥21
🧑🏻‍💻 Диагностика нефтегазовых трубопроводов с помощью машинного обучения

Начинаю рассказывать более подробно о докладах на DataFest’е 2023. Начнем с кейса применения ML в нефтегазовой отрасли, по нему, кстати, есть вот такой интересный таймлапс!

О докладе
Метод дефектоскопии на основе магнитного потока является наиболее распространенным подходом для неразрушающего контроля нефтегазовых трубопроводов. В результате дефектоскопии получаются магнитограммы, зачастую анализируемые полуавтоматизированными методами (есть софт, но большую работу все равно делают люди), что приводит к снижению точности и увеличению времени анализа. А более быстрый и дешевый анализ может позволить запускать дефектоскопы чаще для лучшего понимания текущей ситуации в трубах.
В докладе я рассказал о применении машинного обучения для автоматической диагностики нефтепроводов. К сожалению, звук на записи получился не очень хороший, но слушать можно.

Немного дополнений
Проект начался почти 4 года назад с хакатона Цифровой прорыв, где мы победили в финале самого массового хакатона в истории (даже в книге рекордов Гиннесса побывал хакатон). Инсайты о проведении хакатона есть у нашего сокомандника в статье на хабре. После хакатона по проекту было довольно много работы, результаты которой я и собрал в докладе. Доклад больше про научно-техническую сторону проекта, как наиболее удачную, почти без организационной и бизнесовой частей. А вот препринт научной статьи, где ML часть задачи обнаружения дефектов раскрыта подробнее.
👍10🔥53❤‍🔥1
🗣Конференции и секции с кейсами применения ML в промышленности

Я уже ранее писал про список кейсов применения машинного обучения в промышленности, который собираю в этом репозитории на гитхабе. Кстати, репозиторий уже разросся обзором статей, датасетов помимо кейсов.
Но на какие российские конференции стоит в будущем обращать внимание, если хочется послушать доклады с подобными кейсами?

У меня есть список конференций, которые смотрю/посещаю сам, делюсь! А вы можете дополнять список в комментариях. 💬

• DataFest от ODS.ai - секция ИИ в промышленности (названия от года к году меняются). Вот в 2020 году, вот в 2023. Обычно именно на этой конференции наиболее отобранные и ML-ориентированные доклады.

AIJourney от Сбера. Раньше были целые секции ИИ в промышленности, сейчас более хаотично, но регулярно встречаются доклады по теме. Часть интересных докладов с первых конференций убрали с ютуба, материалы начиная с 2020 года доступны на ютуб канале. Качество докладов обычно тоже высокое.

OpenTalks.ai. Каждый год есть интересные доклады как в индустриальном, так и в научном треках, но большинсто материалов доступно только на сайте конференции.

Эффективное производство от Цифры. Многие материалы доступны на сайте конференции, но некоторые есть и на ютубе. Немало маркетинговых материалов без сути, мало ML материалов, потому что все-таки конференция не специализируется на ML.

• Канал и сообщество "Индустриальные инновации" периодически проводит конференции, вот пример одной из них.

• Интересные материалы могут быть на Иннопроме и ЦИПРе, хотя прикладных историй с техническими деталями все-таки там не так много, но и цель конференций, насколько я понимаю, немного другая.

• Конференции отдельных промышленных компаний с высоким уровнем развития цифровых компетенций, вот пример ГПН.

• Отраслевые конференции, но их надо знать, довольно специфичная история, не всегда есть публичные материалы.

• Совсем для искушенных: можно посещать различные научно-технические конференции, вот пример из нефтегазовой отрасли.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👏43🔥2❤‍🔥1
🚨 Серия постов о качестве и предварительной обработке временных рядов. Часть 2 Обзор методов предварительной обработки данных.

В первой части серии я поделился своими обзорными докладами и статьями о проблемах во временных рядах. А недавно на DataFest’е на треке reliable ml я представил обзор методов предварительной обработки временных рядов. Запись доклада доступна по ссылке. Важно заметить, что чаще всего предварительная обработка преследует следующие цели:
• Борьба с проблемами в данных
• Подготовка данных к требуемому виду и формату для машинного обучения
• Снижения вычислительной сложности задачи (снижение размерности)
• Повышения качества моделей машинного обучения (например, за счет создания более информативных признаков)
Об этом и многом другом идет речь в докладе.

Кстати, доклад частично основан на обзорной статье, которая была правда чуть больше сфокусирована на технических системах и АЭС в частности. Но конкретных методов, подходов и ссылок на источники там можно найти гораздо больше, чем в докладе.

📌 Помимо моего доклада на треке была куча классного контента (день 1, день 2), очень рекомендую хотя бы проглядеть все, а лучше внимательно посмотреть! И очередной раз благодарю Иру, Диму и всех причастных за крутой трек!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤‍🔥4👍3
💼 Диагностика двигателей самолетов
Еще один интересный кейс применения машинного обучения

Делюсь полезным репозиторием с практическим примером решения двух задач предиктивной аналитики авиадвигателей:
Прогнозирование аномалий — в постановке задачи классификации
Оценка остаточного ресурса (RUL) — в постановке задачи регрессии
Решение задач продемонстрировано на одном из немногих доступных публично наборов данных — NASA Turbofan Jet Engine Data Set. Кстати, по ссылке на кэггле можно посмотреть и другие блокноты с решением задачи на этом датасете!

🔍 А вот еще один репозиторий с решением этой же задачи, где больше информации и деталей о кейсе, доменной области и этапах решения задач. Тоже достоин внимания!

Хорошее прикладное дополнение с кодом к моей статье о RUL, которую представлял ранее.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤‍🔥3🔥2🤯1
🗯Поиск аномалий в работе установок грануляции пресс-порошка двуокиси урана для изготовления топливных таблеток
Еще один кейс применения машинного обучения на производстве

Погружение в проблематику
Одним из важных этапов в производстве топливных таблеток для АЭС является подготовка пресс-порошка. После приготовления пресс-порошок используется в качестве сырья для прессования таблеток, которые в последующем проходят этапы спекания, шлифовки и контроля. Качество работы установок для подготовки пресс-порошка напрямую влияет на качество конечной продукции. В производстве для подготовки пресс-порошка используются установки измельчения и грануляции.

Исходные данные
Ряд важных параметров для оценки технического состояния установки измельчения и грануляции уже собирается в системе сбора данных, имеющейся на предприятии:
• скорость вращения мельницы,
• ток мельницы,
• температура корпуса мельницы,
• температура переднего подшипника,
• температура заднего подшипника.

Кроме данных телеметрии, был доступен журнал технического обслуживания и ремонта (ТОиР), который использовался для выделения периодов стабильной безаварийной работы установки, внеплановых остановов оборудования и видов неисправностей.

Задачи и алгоритм на основе методов машинного обучения
Высокий уровень развития инструментов машинного обучения и накопленные за несколько лет массивы данных о работе оборудования дало возможность определить закономерности в работе установки грануляции и открыло возможности прогнозирования состояния и раннего обнаружения аномалий в работе оборудования. Для этого был разработан алгоритм на базе модели машинного обучения — рекуррентной нейронной сети на основе слоев LSTM (long short-term memory). Более подробно об алгоритме поговорим в следующем посте.

💡Выводы
Результаты проекта внесли вклад в повышение коэффициента использования оборудования по времени: уменьшение количества внеплановых остановов и простоев установок грануляции, раннее обнаружение аномальных отклонений состояния от нормального за счёт автоматизированного мониторинга датчиков и анализа полученных данных.

Доклад об этом кейсе и даже в целом о проекте (решалось несколько кейсов) с AIJourney можете посмотреть по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤‍🔥3🔥31
Katser pinned Deleted message
📚Пока я нахожусь в процессе написания нескольких технических постов, делюсь с вами списком полезных книг на интересные и важные темы: тайм-менеджмент, личная эффективность, саморазвитие.

💪«Канбан Метод. Улучшение системы управления» — Майк Барроуз;
О Канбан Методе и девяти ценностях (в том числе, балансе и клиентоориентированности), о процессе реализации в организационном контексте и просто управлении.

🧮 «Deadline. Роман об управлении проектами» — Том ДеМарко;
А тут еще раз убедимся в том, что управление проектами — это всегда работа с людьми. Интересно будет руководителям проектов любого масштаба.

🏃‍♂ «Мама, я тимлид! Практические советы по руководству IT-командой» — Марина Перескокова;
О том, как правильно распределять задачи, мотивировать и давать обратную связь. Интересное сравнение: опыт руководства = катание на сноуборде в тумане: ты ничего не видишь, ничего не понимаешь и все время вынужден «щупать склон». Добро пожаловать в дивный новый мир!

🏎 «Пять пороков команды. Бизнес-роман» — Патрик Ленсиони;
Почему возникают «пять пороков команды»? Взаимное недоверие, нетребовательность, безответственность, боязнь конфликта и безразличие к результатам. Как их диагностировать и что с ними делать?

📊 «Роман с Data Science. Как монетизировать большие данные» —Роман Зыков;
Эта книга предназначена для читателей, которые хотят попробовать свои силы в области анализа данных и создавать сервисы на их основе.

😎 «Путь джедая. Поиск собственной методики продуктивности» — Максим Дорофеев;
Книга поможет раскрыть свой секрет успеха и продуктивности.

💪 «7 навыков высокоэффективных людей: Мощные инструменты развития личности» — Стивен Кови.
О системном подходе к определению жизненных целей.

Советуйте в комментариях, какие еще книги достойны внимания. А если читали что-то из перечисленного — делитесь мнением.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥6❤‍🔥4
🎛 Обзор открытых промышленных данных
Наверно, ни для кого не секрет, что промышленные данные часто являются закрытыми и не публикуются в открытых источниках. Владельцы настолько ценят свои данные, что даже до сих пор нет рынка промышленных данных. А область анализа данных и машинного обучения ну очень сильно опирается на открытые разработки, библиотеки, исследования и датасеты.

🌍В рамках популяризации DS/ML в промышленности я продолжаю делиться накопленными знаниями и предлагаю подборку отобранных датасетов для основных задач (по одному датасету на задачу):
• Tool wear detection - NASA Milling Dataset
• Process monitoring (changepoint detection) - SKAB
• Process monitoring (outlier detection) - NASA Shuttle Valve Data
• Product quality prediction - Bosch Production Line Performance
• RUL determining - NPP power transformer RUL
• Process characteristics forecasting - Ladle-furnace unit
• (Бонус) Industrial Cyber Attack detection - репозиторий сразу с 3мя датасетами

Но есть и более представительные подборки промышленных датасетов, например, эта и эта. Очень рекомендую!

🔁Наконец, в своем репозитории «ML в промышленности», который раньше содержал только кейсы, тоже начал собирать датасеты для полноты картины, а то в репозиториях выше отличные подборки, но недостаточно полные. Свой репозиторий планирую обновлять регулярно, так что подписывайтесь на гитхаб.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥123
73.-bokchapter.87583.pdf
412.1 KB
🔬Я уже упоминал, что у меня есть академический/ресерч бэкграунд, даже профиль на scholar.google, но сейчас я почти не занимаюсь исследованиями. Зато выработалась очень полезная привычка и навык чтения научных статей. Помогает при необходимости разбираться в технологиях, последних достижениях и держать руку на пульсе происходящего в отрасли даже несмотря на то, что не читаю по 10+ статей в день, как в аспирантуре (теперь не больше 1-2 в неделю). Не думаю, что это обязательная рутина для датасайентиста, но для себя пользу вижу.

📰Из последнего, что прочитал, рекомендую вполне сносный, хоть и неглубокий обзор последних трендов в области поиска аномалий во временных рядах (приложил файл). Там и про трансформеры есть.

Кстати, ищу научные статьи на следующих ресурсах:
• Упомянутый scholar.google
Researchgate
• Если полного текста статьи нет в открытом доступе, но у вас есть название или doi, то скорее всего вам поможет sci-hub (есть бот в тг)

И еще лайфхак: на scholar.google и Researchgate пользуюсь рекомендательными движками статей по области интересов, обычно именно оттуда и достаю новые работы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤‍🔥6🔥5
🗣Анонс выступления

Что?
Доклад "ИИ для диагностики АЭС: обзор мирового опыта"

Когда?
15 сентября 2023 в 11.25 по мск

Где?
Конференция CrossConf. Москва, Красный Октябрь,
пространство Старт Хаб

О чем?
Целью доклада является изучение и обобщение мирового и Российского опыта использования алгоритмов искусственного интеллекта для улучшения диагностики оборудования АЭС, а также демонстрация реальных практических кейсов применения машинного обучения на АЭС.

В этом докладе хочется агрегировать собственный (ранее не опубликованный) опыт в области диагностики из атомного прошлого
👍9❤‍🔥4👏32
🛠 В этом посте писал про решение задачи определения остаточного ресурса для трансформаторов АЭС. Напомню, что решение задачи доступно в посте на хабре. Также теперь на medium доступен перевод статьи на английский.

🎛 Наконец, хотел снова затронуть тему публичных наборов промышленных данных и дополнить этот пост. Для задачи остаточного ресурса (RUL) существует совсем немного таких датасетов, вот список наиболее представительных (разных по сложности, отрасли и другим характеристикам):
- NASA Bearing Dataset
- Battery Remaining Useful Life (RUL)
- NASA Turbofan Jet Engine Data Set. О нем упоминал в этом посте, там больше информации и контекста
- Water Pump RUL
- NPP power transformer RUL. Датасет, на котором и продемонстрировано решение задачи определения остаточного ресурса для трансформаторов АЭС по ссылкам выше

🆓 Все ссылки на Kaggle, поэтому польза их еще и в том, что можете найти там блокноты с примерами решения задачи на датасете и подчерпнуть для себя что-то новое.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥3👏3
🤖 Исторически так сложилось, что основной мой фокус в применении машинного обучения в промышленности пришелся именно на задачи технического обслуживания и ремонта (ТОиР) оборудования. А если еще точнее, то на задачах технической диагностики (примеры: пост 1, пост 2, пост 3, пост 4, пост 5). Стоит заметить, что внедрение машинного обучения в процессы ТОиР не всегда экономически эффективно на практике (часто эффект сложно посчитать и доказать), поэтому многие разработчики решений в области ИИ концентрируются на задачах оптимизации производственных процессов (как и я в последнее время), где повышение эффективности производства напрямую можно перевести в деньги. Кстати, про эффекты и сложности проведения испытания для подтверждения эффектов будет отдельный пост.

💎 Если вам интересно углубиться в процесс ТОиР, диагностики, разобраться в надежности, предиктивном обслуживании (не путать с предиктивной аналитикой!), да в конце концов посмотреть мемы по этим темам, то заходите в канал Asset Management Press. Там и про машинное обучение бывает.

‼️ Предупреждаю о высоком уровне экспертности автора и сообщества в канале, может быть сложно, но почему бы не погрузиться и не разобраться, если интересно.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥4👌31❤‍🔥1👏1
📈 Полезные методы для анализа временных рядов из statsmodel и scipy

Временные ряды - особенный тип данных, требующий часто специфичных подходов к работе. Это обусловлено, например, индексированностью (определенным порядком) точек данных. Мы можем случайно «заглянуть в будущее» неправильно оценить качество моделей. Поэтому даже кросс-валидация строится не так как на табличных данных.

Но в этом посте хочется поговорить о нескольких интересных и не самых простых методах анализа временных рядов из очень полезных библиотек statsmodel и scipy. Берите методы и библиотеку на вооружение! Подробнее в карточках👆

❗️ Кстати, работа методов продемонстрирована на одном из датасетов бенчмарка по поиску аномалий SKAB, о котором подробно расскажу позже.

Что еще почитать по теме?
У меня в закладках накопилось много материалов, вот несколько наиболее общих по теме анализа временных рядов:
YouTube - Очень полный воркшоп-лекция об анализе временных рядов (на англ)
YouTube - Одна из лучших лекций на русском про прогнозирование временных рядов
Github - Набор блокнотов и презентация по анализу временных рядов (на англ)
Ну и еще отлично дополнит этот пост:
• Про определение периода в данных

Обязательно делитесь интересными постами по теме и другими методами в комментариях 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍9❤‍🔥4