Временные ряды - особенный тип данных, требующий часто специфичных подходов к работе. Это обусловлено, например, индексированностью (определенным порядком) точек данных. Мы можем случайно «заглянуть в будущее» неправильно оценить качество моделей. Поэтому даже кросс-валидация строится не так как на табличных данных.
Но в этом посте хочется поговорить о нескольких интересных и не самых простых методах анализа временных рядов из очень полезных библиотек statsmodel и scipy. Берите методы и библиотеку на вооружение! Подробнее в карточках
Что еще почитать по теме?
У меня в закладках накопилось много материалов, вот несколько наиболее общих по теме анализа временных рядов:
• YouTube - Очень полный воркшоп-лекция об анализе временных рядов (на англ)
• YouTube - Одна из лучших лекций на русском про прогнозирование временных рядов
• Github - Набор блокнотов и презентация по анализу временных рядов (на англ)
Ну и еще отлично дополнит этот пост:
• Про определение периода в данных
Обязательно делитесь интересными постами по теме и другими методами в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍9❤🔥4
Часть 1 здесь. Научная статья по кейсу здесь
В качестве алгоритма обнаружения аномалий в работе был выбран наиболее распространенный алгоритм - на основе генерации и оценки невязки (расхождения, англ - discrepancy или residuals). Одним из преимуществ алгоритма является необходимость иметь только нормальный режим работы оборудования в исторических данных.
Но сначала давайте немного синхронизируемся в терминологии:
• Модель машинного обучения - функция, отображающая или переводящая объекты (исходные данные) в предсказания (таргет или ответы)
• Алгоритм или метод машинного обучения - процедура или пайплайн, позволяющая превращать обучающую выборку в обученную модель или строить (обучать, подбирать параметры) модель на основе данных
• Алгоритм решения задачи (в нашем случае алгоритм поиска аномалий) - это последовательность действий или пайплайн, приводящий к получению результата в терминах бизнеса. Более общее понятие, чем алгоритм машинного обучения. Может содержать препроцессинг, модель машинного обучения и постпроцессинг
Конечно, модель машинного обучения может являться алгоритмом поиска аномалий, например, если задача ставится как бинарная классификация событий (часто в задачах детекции фрода), то кроме классификатора нам больше ничего и не нужно, как правило. Но чаще модель - всего лишь часть алгоритма решения задачи.
О самом алгоритме на основе генерации и оценки невязки рассказано в карточках 👆
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥6👏3
2310.00332.pdf
10.5 MB
Доклад о проекте и описание истории проекта в этом посте
Отмечу несколько моментов:
• В статью не вошло сравнение с SOTA (state-of-the-art) архитектурами, но есть такая статья, где это подробно происследовано для похожей задачи
• Статья ограничена задачей поиска дефектов, про задачу оценки их размеров (сегментации изображений), о которой рассказывал и в докладе, мб когда-нибудь выйдет отдельная статья
• Хотя в статье и предложена архитектура для решения задачи с лучшим качеством, но ничего интересного в этой архитектуре, конечно, нет
• Основной фокус статьи все-таки на препроцессинге: по сравнению с архитектурой сети для классификации изображений результаты исследования методов препроцессинга (заполнения пропусков, центрирования дефектов/швов, масштабирования данных по картинке/по всему датасету) по-моему довольно интересные и очень прикладные!
На самом деле я уже какое-то время не занимаюсь исследованиями, но есть несколько недописанных статей, которые еще будут выходить по мере появления свободного времени, придется потерпеть
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍7👏1🦄1
paper.pdf
1.9 MB
Аномалии в данных могут являться следствием изменений в модели генерации данных (бизнес-процессе, процессе сбора данных, физике или технологии процесса). Однако часто аномалии представляют собой проблемы с данными. Поэтому и выбросы часто приравнивают к недопустимым (некорректным или нефизичным) значениям, хотя вообще более правильно определять их как точечные аномалии и, в зависимости от доменной области, индивидуально оценивать следствием чего эти аномалии являются (все-таки проблемы с данными или с процессом). Кстати, про причины проблем с данными уже писал и рассказывал (все здесь). А из-за важности задачи поиска аномалий в определении качества данных даже пришлось полдоклада о предварительной обработке данных этому посвятить.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤🔥4🔥2👏1
Дисклеймер: Под физическими моделями в посте буду понимать математические модели, описывающие физические процессы.
В проектировании (и иногда эксплуатации) технических систем в разных отраслях используются численные эксперименты и инженерная оптимизация (или инженерное моделирование) для подбора оптимальной конструкции или оптимальных параметров процесса или системы. Это вычислительно довольно сложный процесс, который может занимать непозволительно много времени. Тогда нам на помощь проходит аппроксимация физических моделей с помощью моделей машинного обучения. Мы можем как дополнять упрощенные физ модели, так и полностью заменять физ модели ML моделями. В зависимости от постановок задач это называется суррогатным или гибридным моделированием. При этом модели машинного обучения могут как строиться на данных экспериментов или реальной эксплуатации объекта, так и строиться на данных проведенных симуляций с помощью физ моделей. Такой подход способен давать погрешность по сравнению с очень точной физ моделью менее 1%, но выполнять расчет в сотни тысяч раз быстрее! Чтобы понять, насколько хорошо это работает, посмотрите это залипательное видео с примером того, как хорошо нейронные сети уже могут моделировать физ процессы.
Если интересно детально познакомиться с задачами, преимуществами, кейсами применения машинного обучения в инженерном моделировании, то в этой презентации лидера рынка Ansys все довольно подробно расписано. А еще в презентации есть слайд со стратегией развития ML компетенций в компании, интересно! Кроме того, для начального ознакомления подойдут эта статья с объяснением и это видео с теорией и реальными кейсами (формула 1, самолеты и много всего интересного).
Близкой темой является физически обоснованные модели машинного обучения, вот хороший обзорный доклад по теме. Здесь речь о том, что с помощью моделей мы стараемся восстановить исходные физические законы, часто в явном виде. Часто используются специально спроектированные (со специальными функциями потерь и постановкой задач) нейронные сети, но могут быть и линейные модели, и ансамбли, и многое другое.
• Отличный канал, где просто бесконечное количество полезного контента на обозначенные и многие другие близкие темы. Очень полезно для исследователей и практиков, изучающих и применяющих ML в промышленности
• Ознакомительное видео “Physics-Informed Neural Network”
• Видео с теорией и практикой на python “A Hands-on Introduction to Physics-informed Machine Learning”
• Обзор в nature на тему "Physics-informed machine learning"
• Научная статья Physics-informed Machine Learning в моделировании климата
• Цикл статей о суррогатном моделировании: часть 1, часть 2, часть 3, часть 4
• Доклады и лекции Е. Бурнаева о машинном обучении в инженерии: то, что было выше, еще одно, лекция
• Научные статьи Е. Бурнаева с соавторами на тему суррогатного моделирования: пример 1, пример 2, пример 3, пример 4
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
How Well Can DeepMind's AI Learn Physics? ⚛
❤️ Check out Lambda here and sign up for their GPU Cloud: https://lambdalabs.com/papers
📝 The paper "Learning to Simulate Complex Physics with Graph Networks" is available here:
https://arxiv.org/abs/2002.09405
https://sites.google.com/view/learning-to…
📝 The paper "Learning to Simulate Complex Physics with Graph Networks" is available here:
https://arxiv.org/abs/2002.09405
https://sites.google.com/view/learning-to…
5🔥15👍8👏3
Оффтоп: никогда не считал себя научным специалистом, хотя закончил аспирантуру, в которую, кстати, шел далеко не с целью двигать вперед науку. Хоть и выбрал целенаправленно, на мой взгляд, лучшую аспирантуру в России (здесь писал о том, как попал в Сколтех). В другие бы просто не пошел. А свою первую статью вообще писал с целью получать повышенную стипендию в бауманке🫠 . Поэтому науку никогда не рассматривал для себя как профессию, занимался ей всегда факультативно, в дополнение к работе, хотя и тратил на научную деятельность немало времени. Но при этом интерес к науке был всегда, до сих пор читаю научные статьи и считаю полезным делать это специалистам в области data science.
Я к чему: недавно преодолел планку в💯 цитирований. Безусловно, немного, но для хобби, считаю, результат приятный. Захотелось поделиться!
Я к чему: недавно преодолел планку в
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34👍12🎉5👏3❤🔥2❤1
Предиктивная аналитика эксгаустеров. Часть 2
Продолжение этого поста
В промышленных проектах часто есть соблазн взять большое число доступных данных и поробовать поприменять на них современные архитектуры нейронок, поимплементировать подходы из научных статей, пособирать необычные пайплайны и ансамбли алгоритмов. Когда я занимался ресерчем более активно — сам любил так делать🤤 . Но с опытом пришло осознание, что нужно стремиться к упрощению моделей и подходов, чтобы обеспечить прозрачность и простоту решения. Сложность и интерпретируемость решения сильно коррелирует с принятием и доверием к решению на производстве. Поэтому большая часть времени работы над решением приходится на обработку данных (помните: garbage in-garbage out), а не на разработку сложного алгоритма решения задачи.
Идеальный сценарий:
много времени потрачено на подготовку данных, генерацию физически обоснованных признаков и эвристик, используемых экспертами и технологическим персоналом на производстве, а в качестве модели выбрана линейная модель, на которой легко объяснить причину принятия того или иного решения.
💻 Так и в этом кейсе с эксгаустерами во время конкурса мы уделили довольно много времени следующим аспектам:
• Переразметка инцидентов (ручная проверка КАЖДОЙ аномалии и попытка определить реальный момент возникновения и устранения аномалий)
• Фильтрация инцидентов из журнала ТОиР (плановые работы, непрогнозируемые аномалии, неправильно размеченные кейсы)
• Подготовка к обучению модели (ресэмплирование, подбор оптимальной стратегии заполнения пропусков, очистка данных, выделение нормальных режимов по электрическим и вибрационным параметрам)
• Генерация дополнительных признаков (отклонение вибрация, температур от медианного значения, тренды и др.)
• Формирование правильных и честных обучающих и тестовых выборок, без пересечения, заглядывания в будущее и тд.
Также часто говорю, что возможностью обучения подходов и алгоритмов с учителем (supervised) стоит пользоваться, они часто бьют скор подходов без учителя/частичного обучения с учителем (unsupervised/semi-supervised), вот, кстати, самый популярный. Но не забывайте, что требования к количеству и качеству разметки возрастают!
Однако интересно познакомиться с противоположным подходом к решению задачи! Статья и репозиторий с непростым решением задачи с того же конкурса (ансамбль, нейронки, эвристики, все как мы любим) + описание данных и сами данные (надо только хорошо поискать ссылки в репозитории). Публично доступные данные с реальных производств мы не упускаем из виду, обязательно сохраняем, пригодятся🌍 . А теперь вы и сами можете попробовать решить задачу — все для этого есть!
Продолжение этого поста
В промышленных проектах часто есть соблазн взять большое число доступных данных и поробовать поприменять на них современные архитектуры нейронок, поимплементировать подходы из научных статей, пособирать необычные пайплайны и ансамбли алгоритмов. Когда я занимался ресерчем более активно — сам любил так делать
Идеальный сценарий:
много времени потрачено на подготовку данных, генерацию физически обоснованных признаков и эвристик, используемых экспертами и технологическим персоналом на производстве, а в качестве модели выбрана линейная модель, на которой легко объяснить причину принятия того или иного решения.
• Переразметка инцидентов (ручная проверка КАЖДОЙ аномалии и попытка определить реальный момент возникновения и устранения аномалий)
• Фильтрация инцидентов из журнала ТОиР (плановые работы, непрогнозируемые аномалии, неправильно размеченные кейсы)
• Подготовка к обучению модели (ресэмплирование, подбор оптимальной стратегии заполнения пропусков, очистка данных, выделение нормальных режимов по электрическим и вибрационным параметрам)
• Генерация дополнительных признаков (отклонение вибрация, температур от медианного значения, тренды и др.)
• Формирование правильных и честных обучающих и тестовых выборок, без пересечения, заглядывания в будущее и тд.
Также часто говорю, что возможностью обучения подходов и алгоритмов с учителем (supervised) стоит пользоваться, они часто бьют скор подходов без учителя/частичного обучения с учителем (unsupervised/semi-supervised), вот, кстати, самый популярный. Но не забывайте, что требования к количеству и качеству разметки возрастают!
Однако интересно познакомиться с противоположным подходом к решению задачи! Статья и репозиторий с непростым решением задачи с того же конкурса (ансамбль, нейронки, эвристики, все как мы любим) + описание данных и сами данные (надо только хорошо поискать ссылки в репозитории). Публично доступные данные с реальных производств мы не упускаем из виду, обязательно сохраняем, пригодятся
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Katser
👍17🔥4❤2❤🔥1👏1
Данные с дуговой сталеплавильной печи ❤️🔥
Продолжаю собирать и делиться интересными датасетами. На этот раз речь о данных с дуговой сталеплавильной печи (ДСП). Только недавно обновил датасет и описание к нему на каггле, теперь можно даже цитировать:
Данные реальные и довольно близки к сырым, поэтому, как обычно, есть сложность с трудоемкостью процесса агрегации данных и сборки датасета для обучения из нескольких файлов. Будет время — приведу в порядок свой блокнот с агрегацией и выложу, а пока можете сами попробовать!🧹 Вполне полезная практика и опыт работы с реальными данными.
Задачи можно решать три:
• Оценка/прогноз температуры металла в процессе плавки
• Оценка/прогноз окисленности металла в процессе плавки
• Оценка/прогноз химического состава металла после ДСП
Решение задач может позволить оптимизировать время плавки, затраты на электроэнергию, использованную для нагрева и в результате повысить производительность. Больше деталей по ссылке.🔥
Продолжаю собирать и делиться интересными датасетами. На этот раз речь о данных с дуговой сталеплавильной печи (ДСП). Только недавно обновил датасет и описание к нему на каггле, теперь можно даже цитировать:
Iurii Katser, Igor Mozolin, Maxim Mezhov, & Vladislav Travnikov. (2023). Industrial Data from the Electric Arc Furnace [Data set]. Kaggle. https://doi.org/10.34740/KAGGLE/DS/1671405
Данные реальные и довольно близки к сырым, поэтому, как обычно, есть сложность с трудоемкостью процесса агрегации данных и сборки датасета для обучения из нескольких файлов. Будет время — приведу в порядок свой блокнот с агрегацией и выложу, а пока можете сами попробовать!
Задачи можно решать три:
• Оценка/прогноз температуры металла в процессе плавки
• Оценка/прогноз окисленности металла в процессе плавки
• Оценка/прогноз химического состава металла после ДСП
Решение задач может позволить оптимизировать время плавки, затраты на электроэнергию, использованную для нагрева и в результате повысить производительность. Больше деталей по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
Kaggle
Industrial Data from the Electric Arc Furnace
Temperature, Oxidation forecasting for an electric arc furnace
👏14👍6❤🔥5🔥2
ИИ для диагностики АЭС: обзор мирового опыта 🌎
Опубликован доклад по итогам выступления на кроссконф. В этом посте дополню описание доклада и сам доклад некоторыми мыслями.
Дисклеймер: В данном докладе под термином ИИ мы понимаем скорее машинное обучение и используем эти термины взаимозаменяемо.
Раннее обнаружение отклонений в работе оборудования от нормального состояния непосредственно влияет на безопасность атомных электростанций. Улучшение качества работы систем онлайн-мониторинга технического состояния оборудования, помимо роста безопасности, приводит к следующим эффектам:
• Рост коэффициента использования установленной мощности (КИУМ) за счет снижения времени внеплановых простоев.
• Оптимизация загрузки и ремонтов оборудования за счет раннего обнаружения дефектов и понимания текущего технического состояния.
• Увеличение качества диагностики неисправностей за счет лучшего анализа и понимания данных, связанных с зарегистрированными неисправностями.
• Возможность продления срока службы элементов АЭС за счет оценки текущего технического состояния и оставшегося ресурса.
В настоящее время развитие алгоритмов и методов машинного обучения переживает стадию активного развития, вследствие роста доступности и эффективности инструментов анализа, в том числе для работы с промышленными приложениями. Использование современных средств и методов анализа данных позволяет развивать и улучшать существующие системы мониторинга АЭС. Важной особенностью является возможность повышать качество анализа информации, собираемой сегодня, без оснащения АЭС дополнительными измерительными каналами🧐
Внедрение методов и алгоритмов ИИ на промышленных предприятиях сталкивается с барьерами, которые замедляют интеграцию решений. К ним можно отнести:
• высокая зарегулированность (критерии безопасности);
• высокие риски окупаемости решения;
• внутреннее сопротивление кадров;
• отсутствие подготовленных кадров (персонал разрабатывающий, эксплуатирующий и поддерживающий решения);
• отсутствие инфраструктуры.
Несмотря на указанные барьеры, в настоящее время публикуется большое количество исследований, посвященных темам применения методов и алгоритмов ИИ для оценки и прогнозирования технического состояния оборудования АЭС в России и мире.
Большинство исследователей выделяют три подхода к обнаружению неисправностей: на базе физической̆ модели оборудования, без использования физической модели и гибридный̆ подход.
• Под физической моделью понимается математическое моделирование объекта диагностирования с помощью уравнений, описывающих физику происходящих в системе процессов. Физическое моделирование безусловно является предпочтительным для любой задачи диагностирования благодаря точности и интерпретируемости результата. Основным недостатком является сложность создания качественной модели оборудования.
• Методы и алгоритмы ИИ относятся ко второму подходу — без использования физической модели.
• Гибридные модели создаются для использования сильных сторон разных подходов. Построение таких моделей может происходить следующим образом: моделируются основные компоненты системы, а дальше модель уточняется с помощью методов ИИ.
Презентация в комментариях👇
Опубликован доклад по итогам выступления на кроссконф. В этом посте дополню описание доклада и сам доклад некоторыми мыслями.
Дисклеймер: В данном докладе под термином ИИ мы понимаем скорее машинное обучение и используем эти термины взаимозаменяемо.
Раннее обнаружение отклонений в работе оборудования от нормального состояния непосредственно влияет на безопасность атомных электростанций. Улучшение качества работы систем онлайн-мониторинга технического состояния оборудования, помимо роста безопасности, приводит к следующим эффектам:
• Рост коэффициента использования установленной мощности (КИУМ) за счет снижения времени внеплановых простоев.
• Оптимизация загрузки и ремонтов оборудования за счет раннего обнаружения дефектов и понимания текущего технического состояния.
• Увеличение качества диагностики неисправностей за счет лучшего анализа и понимания данных, связанных с зарегистрированными неисправностями.
• Возможность продления срока службы элементов АЭС за счет оценки текущего технического состояния и оставшегося ресурса.
В настоящее время развитие алгоритмов и методов машинного обучения переживает стадию активного развития, вследствие роста доступности и эффективности инструментов анализа, в том числе для работы с промышленными приложениями. Использование современных средств и методов анализа данных позволяет развивать и улучшать существующие системы мониторинга АЭС. Важной особенностью является возможность повышать качество анализа информации, собираемой сегодня, без оснащения АЭС дополнительными измерительными каналами
Внедрение методов и алгоритмов ИИ на промышленных предприятиях сталкивается с барьерами, которые замедляют интеграцию решений. К ним можно отнести:
• высокая зарегулированность (критерии безопасности);
• высокие риски окупаемости решения;
• внутреннее сопротивление кадров;
• отсутствие подготовленных кадров (персонал разрабатывающий, эксплуатирующий и поддерживающий решения);
• отсутствие инфраструктуры.
Несмотря на указанные барьеры, в настоящее время публикуется большое количество исследований, посвященных темам применения методов и алгоритмов ИИ для оценки и прогнозирования технического состояния оборудования АЭС в России и мире.
Большинство исследователей выделяют три подхода к обнаружению неисправностей: на базе физической̆ модели оборудования, без использования физической модели и гибридный̆ подход.
• Под физической моделью понимается математическое моделирование объекта диагностирования с помощью уравнений, описывающих физику происходящих в системе процессов. Физическое моделирование безусловно является предпочтительным для любой задачи диагностирования благодаря точности и интерпретируемости результата. Основным недостатком является сложность создания качественной модели оборудования.
• Методы и алгоритмы ИИ относятся ко второму подходу — без использования физической модели.
• Гибридные модели создаются для использования сильных сторон разных подходов. Построение таких моделей может происходить следующим образом: моделируются основные компоненты системы, а дальше модель уточняется с помощью методов ИИ.
Презентация в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
ИИ для диагностики АЭС: обзор мирового опыта // Вячеслав Козицин, Юрий Кацер
О докладе:
В настоящее время развитие алгоритмов и методов машинного обучения переживает стадию активного развития, вследствие роста доступности и эффективности инструментов анализа, в том числе для работы с промышленными приложениями. Использование современных…
В настоящее время развитие алгоритмов и методов машинного обучения переживает стадию активного развития, вследствие роста доступности и эффективности инструментов анализа, в том числе для работы с промышленными приложениями. Использование современных…
👍15🔥6❤🔥3