Katser – Telegram
Katser
2.26K subscribers
93 photos
7 videos
10 files
137 links
Авторский канал @ykatser по data science, машинному обучению и искусственному интеллекту в основном в задачах промышленности, но не только
Download Telegram
🎛 Обзор открытых промышленных данных
Наверно, ни для кого не секрет, что промышленные данные часто являются закрытыми и не публикуются в открытых источниках. Владельцы настолько ценят свои данные, что даже до сих пор нет рынка промышленных данных. А область анализа данных и машинного обучения ну очень сильно опирается на открытые разработки, библиотеки, исследования и датасеты.

🌍В рамках популяризации DS/ML в промышленности я продолжаю делиться накопленными знаниями и предлагаю подборку отобранных датасетов для основных задач (по одному датасету на задачу):
• Tool wear detection - NASA Milling Dataset
• Process monitoring (changepoint detection) - SKAB
• Process monitoring (outlier detection) - NASA Shuttle Valve Data
• Product quality prediction - Bosch Production Line Performance
• RUL determining - NPP power transformer RUL
• Process characteristics forecasting - Ladle-furnace unit
• (Бонус) Industrial Cyber Attack detection - репозиторий сразу с 3мя датасетами

Но есть и более представительные подборки промышленных датасетов, например, эта и эта. Очень рекомендую!

🔁Наконец, в своем репозитории «ML в промышленности», который раньше содержал только кейсы, тоже начал собирать датасеты для полноты картины, а то в репозиториях выше отличные подборки, но недостаточно полные. Свой репозиторий планирую обновлять регулярно, так что подписывайтесь на гитхаб.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥123
73.-bokchapter.87583.pdf
412.1 KB
🔬Я уже упоминал, что у меня есть академический/ресерч бэкграунд, даже профиль на scholar.google, но сейчас я почти не занимаюсь исследованиями. Зато выработалась очень полезная привычка и навык чтения научных статей. Помогает при необходимости разбираться в технологиях, последних достижениях и держать руку на пульсе происходящего в отрасли даже несмотря на то, что не читаю по 10+ статей в день, как в аспирантуре (теперь не больше 1-2 в неделю). Не думаю, что это обязательная рутина для датасайентиста, но для себя пользу вижу.

📰Из последнего, что прочитал, рекомендую вполне сносный, хоть и неглубокий обзор последних трендов в области поиска аномалий во временных рядах (приложил файл). Там и про трансформеры есть.

Кстати, ищу научные статьи на следующих ресурсах:
• Упомянутый scholar.google
Researchgate
• Если полного текста статьи нет в открытом доступе, но у вас есть название или doi, то скорее всего вам поможет sci-hub (есть бот в тг)

И еще лайфхак: на scholar.google и Researchgate пользуюсь рекомендательными движками статей по области интересов, обычно именно оттуда и достаю новые работы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤‍🔥6🔥5
🗣Анонс выступления

Что?
Доклад "ИИ для диагностики АЭС: обзор мирового опыта"

Когда?
15 сентября 2023 в 11.25 по мск

Где?
Конференция CrossConf. Москва, Красный Октябрь,
пространство Старт Хаб

О чем?
Целью доклада является изучение и обобщение мирового и Российского опыта использования алгоритмов искусственного интеллекта для улучшения диагностики оборудования АЭС, а также демонстрация реальных практических кейсов применения машинного обучения на АЭС.

В этом докладе хочется агрегировать собственный (ранее не опубликованный) опыт в области диагностики из атомного прошлого
👍9❤‍🔥4👏32
🛠 В этом посте писал про решение задачи определения остаточного ресурса для трансформаторов АЭС. Напомню, что решение задачи доступно в посте на хабре. Также теперь на medium доступен перевод статьи на английский.

🎛 Наконец, хотел снова затронуть тему публичных наборов промышленных данных и дополнить этот пост. Для задачи остаточного ресурса (RUL) существует совсем немного таких датасетов, вот список наиболее представительных (разных по сложности, отрасли и другим характеристикам):
- NASA Bearing Dataset
- Battery Remaining Useful Life (RUL)
- NASA Turbofan Jet Engine Data Set. О нем упоминал в этом посте, там больше информации и контекста
- Water Pump RUL
- NPP power transformer RUL. Датасет, на котором и продемонстрировано решение задачи определения остаточного ресурса для трансформаторов АЭС по ссылкам выше

🆓 Все ссылки на Kaggle, поэтому польза их еще и в том, что можете найти там блокноты с примерами решения задачи на датасете и подчерпнуть для себя что-то новое.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥3👏3
🤖 Исторически так сложилось, что основной мой фокус в применении машинного обучения в промышленности пришелся именно на задачи технического обслуживания и ремонта (ТОиР) оборудования. А если еще точнее, то на задачах технической диагностики (примеры: пост 1, пост 2, пост 3, пост 4, пост 5). Стоит заметить, что внедрение машинного обучения в процессы ТОиР не всегда экономически эффективно на практике (часто эффект сложно посчитать и доказать), поэтому многие разработчики решений в области ИИ концентрируются на задачах оптимизации производственных процессов (как и я в последнее время), где повышение эффективности производства напрямую можно перевести в деньги. Кстати, про эффекты и сложности проведения испытания для подтверждения эффектов будет отдельный пост.

💎 Если вам интересно углубиться в процесс ТОиР, диагностики, разобраться в надежности, предиктивном обслуживании (не путать с предиктивной аналитикой!), да в конце концов посмотреть мемы по этим темам, то заходите в канал Asset Management Press. Там и про машинное обучение бывает.

‼️ Предупреждаю о высоком уровне экспертности автора и сообщества в канале, может быть сложно, но почему бы не погрузиться и не разобраться, если интересно.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥4👌31❤‍🔥1👏1
📈 Полезные методы для анализа временных рядов из statsmodel и scipy

Временные ряды - особенный тип данных, требующий часто специфичных подходов к работе. Это обусловлено, например, индексированностью (определенным порядком) точек данных. Мы можем случайно «заглянуть в будущее» неправильно оценить качество моделей. Поэтому даже кросс-валидация строится не так как на табличных данных.

Но в этом посте хочется поговорить о нескольких интересных и не самых простых методах анализа временных рядов из очень полезных библиотек statsmodel и scipy. Берите методы и библиотеку на вооружение! Подробнее в карточках👆

❗️ Кстати, работа методов продемонстрирована на одном из датасетов бенчмарка по поиску аномалий SKAB, о котором подробно расскажу позже.

Что еще почитать по теме?
У меня в закладках накопилось много материалов, вот несколько наиболее общих по теме анализа временных рядов:
YouTube - Очень полный воркшоп-лекция об анализе временных рядов (на англ)
YouTube - Одна из лучших лекций на русском про прогнозирование временных рядов
Github - Набор блокнотов и презентация по анализу временных рядов (на англ)
Ну и еще отлично дополнит этот пост:
• Про определение периода в данных

Обязательно делитесь интересными постами по теме и другими методами в комментариях 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍9❤‍🔥4
🗯Поиск аномалий в работе установок грануляции пресс-порошка двуокиси урана для изготовления топливных таблеток. Часть 2 — Алгоритм поиска аномалий на основе генерации невязки
Часть 1 здесь. Научная статья по кейсу здесь

В качестве алгоритма обнаружения аномалий в работе был выбран наиболее распространенный алгоритм - на основе генерации и оценки невязки (расхождения, англ - discrepancy или residuals). Одним из преимуществ алгоритма является необходимость иметь только нормальный режим работы оборудования в исторических данных.
Но сначала давайте немного синхронизируемся в терминологии:
Модель машинного обучения - функция, отображающая или переводящая объекты (исходные данные) в предсказания (таргет или ответы)
Алгоритм или метод машинного обучения - процедура или пайплайн, позволяющая превращать обучающую выборку в обученную модель или строить (обучать, подбирать параметры) модель на основе данных
Алгоритм решения задачи (в нашем случае алгоритм поиска аномалий) - это последовательность действий или пайплайн, приводящий к получению результата в терминах бизнеса. Более общее понятие, чем алгоритм машинного обучения. Может содержать препроцессинг, модель машинного обучения и постпроцессинг

Конечно, модель машинного обучения может являться алгоритмом поиска аномалий, например, если задача ставится как бинарная классификация событий (часто в задачах детекции фрода), то кроме классификатора нам больше ничего и не нужно, как правило. Но чаще модель - всего лишь часть алгоритма решения задачи.

О самом алгоритме на основе генерации и оценки невязки рассказано в карточках 👆

👨‍💻Кстати, пример реализации алгоритма в коде продемонстрирован здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥6👏3