Описал простыми словами специфичные и наиболее распространенные задачи, которые формулируются и решаются при работе с временными рядами. Полезное дополнение для этого и этого постов, в которых вы найдете методы и инструменты для решения задач.
Задачу аугментации наглядно демонстрировал в этом посте.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥8💯4
ИИ в промышленности.pdf
212.6 KB
ИИ в промышленности по данным разных аналитических отчетов. Часть 4
Части 1, 2.1, 2.2, 3
Полезный документ от АНО Цифровая экономика с отсортированным по отраслям списком кейсов ИИ в промышленности в России на 02.08.24. В дополнение к нему отчет📁
Кейсы — это хорошо, но еще лучше послушать доклад от разработчиков и почитать статью на хабре. Как раз такой список материалов я собираю с своем репозитории. Ну и дополняю его регулярно, что тоже важно.
Ранее объяснял в этом посте, почему насмотренность кейсов и чужой опыт важны❗️
Части 1, 2.1, 2.2, 3
Полезный документ от АНО Цифровая экономика с отсортированным по отраслям списком кейсов ИИ в промышленности в России на 02.08.24. В дополнение к нему отчет
Кейсы — это хорошо, но еще лучше послушать доклад от разработчиков и почитать статью на хабре. Как раз такой список материалов я собираю с своем репозитории. Ну и дополняю его регулярно, что тоже важно.
Ранее объяснял в этом посте, почему насмотренность кейсов и чужой опыт важны
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍9👌5❤🔥1👏1
Надеюсь, это последний раз, когда я рассказываю про RUL (уже были пост в канале, статья №1 на хабр, статья №2 на хабр, доклад на ИИшнице and counting...), но каждый раз хочется слегка улучшить и дополнить материал.
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Юрий Кацер | Остаточный ресурс промышленного оборудования
Спикер: Юрий Кацер, Рокет Контрол, DS team lead, эксперт по анализу данных и машинному обучению в задачах промышленности, автор тг-канала @datakatser
Полезные ссылки:
https://github.com/YKatser/Industrial-ML
Data Fest 2024: https://ods.ai/events/datafest2024…
Полезные ссылки:
https://github.com/YKatser/Industrial-ML
Data Fest 2024: https://ods.ai/events/datafest2024…
👍15🔥7❤3🥰1
❌Трансформеры для прогнозирования временных рядов. Часть 1
Я ранее писал о том, как Deep learning и трансформеры не бьют классические подходы и даже эвристики доменных областей. На мой взгляд, это актуально и в промышленности, и для многих задач на временных рядах, включая задачу поиска аномалий.
📎 А в свете активного развития LLM и новых архитектур (пример TimeGPT и Time-LLM) не лишним будет внимательно изучить этот репозиторий с 60+ статьями про то, как трансформеры и LLM не работают❗️ для прогнозирования временных рядов. Про то, что работает, в репозитории тоже есть.
Я ранее писал о том, как Deep learning и трансформеры не бьют классические подходы и даже эвристики доменных областей. На мой взгляд, это актуально и в промышленности, и для многих задач на временных рядах, включая задачу поиска аномалий.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - valeman/Transformers_And_LLM_Are_What_You_Dont_Need: The best repository showing why transformers might not be the answer…
The best repository showing why transformers might not be the answer for time series forecasting and showcasing the best SOTA non transformer models. - valeman/Transformers_And_LLM_Are_What_You_Don...
👍23🔥8💯6❤2
❌Трансформеры для прогнозирования временных рядов. Часть 2
Свежая, не вошедшая в список из предыдущего поста (Часть 1) статья "Are Language Models Actually Useful for Time Series Forecasting?" (текст, репозиторий). Не будет лишним для погружения в тему.
Авторы выделяют следующие моменты:
Речь опять о прогнозировании, но авторы отмечают, что надо расширять анализ и на другие задачи на временных рядах, например, классификацию.🤌
Свежая, не вошедшая в список из предыдущего поста (Часть 1) статья "Are Language Models Actually Useful for Time Series Forecasting?" (текст, репозиторий). Не будет лишним для погружения в тему.
Авторы выделяют следующие моменты:
• Ablation studies: Removing or replacing the LLM components with simpler structures (like basic attention layers) often resulted in improved performance, challenging the assumed superiority of LLMs.
• Computational costs: The study highlights that LLMs significantly increase computational costs without corresponding improvements in forecasting accuracy. Simpler models reduced training and inference time by up to three orders of magnitude.
• Performance comparison: In most cases, simpler models outperformed LLM-based methods across eight standard datasets. For instance, ablations (w/o LLM, LLM2Attn, LLM2Trsf) outperformed Time-LLM in 26/26 cases, LLaTA in 22/26 cases, and OneFitsAll in 19/26 cases.
• Impact of pretraining: Pretraining LLMs on language data did not provide a significant advantage for time series forecasting tasks. Models trained from scratch performed equally well or better.
• Few-shot learning: LLMs did not perform well in few-shot learning scenarios, indicating that their sequence modeling capabilities from text do not transfer effectively to time series data.
Речь опять о прогнозировании, но авторы отмечают, что надо расширять анализ и на другие задачи на временных рядах, например, классификацию.
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥10👌5👍3👏2❤🔥1
Классификация аномалий и задач в области поиска аномалий
Про классификацию аномалий я часто рассказываю в своих докладах (раз, два). Я также писал пост в канал Reliable ML, где затрагивал эту тему. Пришло время собрать всю информацию по теме в один пост. Я, как обычно, опираюсь на классический обзор, немного его дополняя.
🟡 По типу обработки информации (Processing type). Существуют оффлайн и онлайн варианты задачи.
· Оффлайн задача (=сегментация) ставится при наличии полного набора данных, поэтому можно получить оптимальное решение.
· Онлайн ставится, когда данные поступают поточечно (real-time) или батчами, а начало аномалии (точка изменения) должно детектироваться с минимальным запаздыванием.
🟣 По типу данных (Data). Один из вариантов классификации — на структурированные, полуструктурированные и неструктурированные (подробнее здесь). Но более полезной кажется классификация по модальности, поскольку методы поиска аномалий для разных модальностей часто существенно различаются.
· Табличные: это данные, структурированные в строки, каждая из которых содержит информацию об отдельном объекте.
· Временной ряд: это одномерные или многомерные данные, наблюдаемые во времени последовательным образом. В идеальных случаях данные наблюдаются через заранее определенные и равные промежутки времени (например, ежегодно или ежечасно).
· Аудио: это особый случай данных временных рядов, где собираемым признаком является звук. Более подробную информацию о том, что такое звук и аудио, можно найти здесь.
· Изображения: это тензор или многомерный массив, где два измерения (строки и столбцы) представляют собой пространственные координаты (оси x и y), а третье представляет интенсивность или уровень серого.
· Видео: обычно это комбинированный тип аудио и временных рядов изображений (каждый экземпляр относится к типу изображения).
· Текст: это либо отдельные слова, либо слова, объединенные в фразы, предложения и тексты.
📎 Полезная статья о типах данных с точки зрения машинного обучения.
🔵 По наличию разметки данных (Modes by data labels). Можно разделить на с учителем (supervised), с частичным привлечением учителя (semi-supervised) и без учителя (unsupervised).
· Обучения с учителем: требуется, чтобы все данные (как нормального, так и аномального класса) были размечены.
· Обучение с частичным привлечением учителя: обычно речь идет о необходимости иметь часть размеченных данных для каждого класса, но для поиска аномалий чаще всего речь идет о наличии полностью размеченного нормального класса.
· Обучение без учителя: нет разметки ни одного класса. Эти методы часто основаны на предположении, что количество аномальных случаев намного меньше обычных.
🟢 Вывод алгоритмов (AD algorithm output). Существует два основных типа вывода результатов алгоритмов:
· Оценка (score) аномальности: алгоритм выдает для каждой точки степень аномальности. Это позволяет гибко определять границу аномальности на этапе постобработки и, например, управлять ошибками 1го и 2го рода.
· Метки классов: алгоритм выводит для каждой точки метку класса (0/1 или нормальный/аномальный).
🔴 Тип аномалии (Anomaly type). Часто выделяют точечные, коллективные и контекстуальные аномалии.
· Если одна точка демонстрирует аномальное поведение по отношению к остальным данным, то ее называют точечной аномалией.
· Если набор последовательных точек демонстрирует аномальное поведение по отношению к остальным данным, то этот набор точек называют коллективной аномалией.
· В случае, если аномальность данных заметна только в контексте соседних точек, говорят о контекстуальных аномалиях. К этому типу могут относиться как точечные, так и коллективные аномалии.
🔵 Область применения (Application domain). В зависимости от конкретной области знаний или отрасли экономики аномалии можно разделить на различные типы: фрод, кибер-атаки, поломки оборудования и другие. Эти типы относятся к различной природе возникновения аномалий и подразумевают, что следует использовать различные методы поиска аномалий и эвристики предметной области.
Про классификацию аномалий я часто рассказываю в своих докладах (раз, два). Я также писал пост в канал Reliable ML, где затрагивал эту тему. Пришло время собрать всю информацию по теме в один пост. Я, как обычно, опираюсь на классический обзор, немного его дополняя.
· Оффлайн задача (=сегментация) ставится при наличии полного набора данных, поэтому можно получить оптимальное решение.
· Онлайн ставится, когда данные поступают поточечно (real-time) или батчами, а начало аномалии (точка изменения) должно детектироваться с минимальным запаздыванием.
· Табличные: это данные, структурированные в строки, каждая из которых содержит информацию об отдельном объекте.
· Временной ряд: это одномерные или многомерные данные, наблюдаемые во времени последовательным образом. В идеальных случаях данные наблюдаются через заранее определенные и равные промежутки времени (например, ежегодно или ежечасно).
· Аудио: это особый случай данных временных рядов, где собираемым признаком является звук. Более подробную информацию о том, что такое звук и аудио, можно найти здесь.
· Изображения: это тензор или многомерный массив, где два измерения (строки и столбцы) представляют собой пространственные координаты (оси x и y), а третье представляет интенсивность или уровень серого.
· Видео: обычно это комбинированный тип аудио и временных рядов изображений (каждый экземпляр относится к типу изображения).
· Текст: это либо отдельные слова, либо слова, объединенные в фразы, предложения и тексты.
· Обучения с учителем: требуется, чтобы все данные (как нормального, так и аномального класса) были размечены.
· Обучение с частичным привлечением учителя: обычно речь идет о необходимости иметь часть размеченных данных для каждого класса, но для поиска аномалий чаще всего речь идет о наличии полностью размеченного нормального класса.
· Обучение без учителя: нет разметки ни одного класса. Эти методы часто основаны на предположении, что количество аномальных случаев намного меньше обычных.
· Оценка (score) аномальности: алгоритм выдает для каждой точки степень аномальности. Это позволяет гибко определять границу аномальности на этапе постобработки и, например, управлять ошибками 1го и 2го рода.
· Метки классов: алгоритм выводит для каждой точки метку класса (0/1 или нормальный/аномальный).
· Если одна точка демонстрирует аномальное поведение по отношению к остальным данным, то ее называют точечной аномалией.
· Если набор последовательных точек демонстрирует аномальное поведение по отношению к остальным данным, то этот набор точек называют коллективной аномалией.
· В случае, если аномальность данных заметна только в контексте соседних точек, говорят о контекстуальных аномалиях. К этому типу могут относиться как точечные, так и коллективные аномалии.
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥12👍6❤🔥3❤2
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥6❤🔥2👏2
Павел Дуров под стражей, а значит самое время инвестировать в тг-валюту! На самом деле просто я изучаю новый функционал тг
Возможно, вы уже заметили появление золотых звезд среди обычных реакций на посты в телеграм-каналах. Теперь каждый желающий может приобрести эти звезды и использовать их, чтобы выразить поддержку понравившимся публикациям. Авторы каналов могут отслеживать свои звездные накопления в настройках и использовать их для покупки рекламы в телеграме или конвертации в тг-крипту. Поддержка небольшая, но все равно приятно, и пойдет она в любом случае на развитие канала.
Я подключил платные реакции и уже успел собрать несколько звезд — спасибо вам!
Сам планирую поддерживать тех авторов, которые действительно вызывают у меня интерес.
Please open Telegram to view this post
VIEW IN TELEGRAM
27👍12👏5👎3🥰2💩1
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁21🤣9👏4💯3😢1
ИИ в промышленности по данным разных аналитических отчетов. Часть 5
Части 1, 2.1, 2.2, 3, 4
Еще один отчет, теперь от Иннополиса. Ключевые моменты на приложенных картинках. Я бы рекомендовал заглянуть в 2 раздела:
🔴 Энергетика и ИИ
🔴 Промышленность и ИИ
В начале каждого раздела есть интересная информация по ключевым проблемам, трендам отрасли и трендам в направлении ИИ. Сам отчет с упором на патенты, но я большой пользы от патентного ландшафта не вижу, слишком высокая скорость изменений в области ИИ и патенты не раскрывают самые интересные составляющие продуктов — самое интересное всегда под ноу-хау, в опен-сорсе и в научных статьях.
Наверное, какую-то оценку по патентам в технологическом лидерстве делать можно. Напишите, в чем польза в комментах.🙂
📎 Отчет в пдф прикладываю в комментариях.
Части 1, 2.1, 2.2, 3, 4
Еще один отчет, теперь от Иннополиса. Ключевые моменты на приложенных картинках. Я бы рекомендовал заглянуть в 2 раздела:
В начале каждого раздела есть интересная информация по ключевым проблемам, трендам отрасли и трендам в направлении ИИ. Сам отчет с упором на патенты, но я большой пользы от патентного ландшафта не вижу, слишком высокая скорость изменений в области ИИ и патенты не раскрывают самые интересные составляющие продуктов — самое интересное всегда под ноу-хау, в опен-сорсе и в научных статьях.
Наверное, какую-то оценку по патентам в технологическом лидерстве делать можно. Напишите, в чем польза в комментах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍7✍2🔥2👏1😐1
Да-да, дождались, новая порция открытых промышленных данных! Датасет для решения сразу 3х задач диагностики:
Первые 2 объединяют в термин Fault Detection and Diagnosis (FDD), последнюю обозначают термином Remaining Useful Life (RUL).
Постановка описанных задач возможна, так как в датасете по сути 2 разметки:
Набор данных и описание выложены на каггле, можно цитировать:
Iurii Katser. (2024). Power Transformers FDD and RUL [Data set]. Kaggle. https://doi.org/10.34740/KAGGLE/DSV/9296666
Набор данных состоит из 3000 отдельных таблиц, каждая из которых представляет собой характеристику состояния отдельного трансформатора. Таблица содержит 4 колонки-признака, это содержания газов в трансформаторном масле. Таблицы имеют длину 420 строк, каждая из которых является отдельным измерением концентраций с периодом между замерами — 12 часов.
Задачи поиска и классификации аномалий (FDD)
Разметка представляет собой отдельный файл с классами, то есть каждой таблице соответствует 1 лейбл (1 число) класса:
1 — Нормальный режим
2 — Частичный разряд: локальный пробой диэлектрика в газонаполненных полостях;
3 — Низкоэнергетический разряд: искрение или дуговые разряды при плохом контакте элементов конструкции с разным или плавающим потенциалом; разряды между элементами конструкции сердечника ИП, отводами обмотки ВН и баком, обмоткой ВН и заземлением; выделения в масле при переключении контактов;
4 — Низкотемпературный перегрев: нарушение потока масла в каналах охлаждения обмоток, магнитная система, что приводит к низкой эффективности системы охлаждения при температурах < 300 °С.
Данные использовались для решения задачи поиска аномалий в этой статье, писал про это в канале (раз, два, три).
Задача оценки остаточного ресурса (RUL)
Здесь каждой таблице соответствует 1 число — остаточный ресурс трансформатора на момент окончания данных в таблице в виде количества точек.
Очень подробно данные и задача рассмотрены здесь (+ пост в канале).
Please open Telegram to view this post
VIEW IN TELEGRAM
Kaggle
Power Transformers FDD and RUL
Datasets with dissolved gases concentrations in power transformer oil
11👍22🔥10👏2❤1
По странному стечению обстоятельств с большим запозданием пишу про интереснейший отчет ИТМО по итогам исследования open-source в России. Ребята давно исследуют тему и сами двигают open-source вперед (например, FEDOT и сообщество @itmo_opensource), писал про это здесь. А я в исследовании участвовал в качестве эксперта (какой open-source, такой и эксперт, хотя может я путаю причину и следствие🤔)
Наш датасет SKAB не рекламировал, но в обзор он все-таки попал, это приятно. Что такое "ядро обнаружения аномалий" я вам не расскажу, так как сам не знаю.😅
Еще недавно давал комментарий к другой статье про open-source (habr, vc), опять жаловался на промышленность. А вообще у автора там серия статей про open-source.
Хотя я не только жалуюсь, но и продолжаю вносить небольшой вклад в open-source в промышленности на кэггле (датасеты) и гитхабе (все остальное).
Наш датасет SKAB не рекламировал, но в обзор он все-таки попал, это приятно. Что такое "ядро обнаружения аномалий" я вам не расскажу, так как сам не знаю.😅
Еще недавно давал комментарий к другой статье про open-source (habr, vc), опять жаловался на промышленность. А вообще у автора там серия статей про open-source.
Хотя я не только жалуюсь, но и продолжаю вносить небольшой вклад в open-source в промышленности на кэггле (датасеты) и гитхабе (все остальное).
opensource.itmo.ru
ITMO Opensource
1👍25🔥8😎4
В одном посте на английском языке собрал основные задачи на временных рядах и библиотеки для автоматизации их решения. При этом слегка обновил опубликованную в канале версию документа.
Кстати, все материалы на английском и часть материалов на русском собираю в линкедине, который на удивление является наиболее эффективным инструментом поиска работы/кадров. Абсолютное большинство предложений о работе в последние пару лет пришло ко мне через линкедин, так что не стоит пренебрегать этой соцсетью. И это я про российский рынок труда🧐 . А еще на линкедине я с удовольствием читаю пару интереснейших блогов про временные ряды и промышленность, так что это теперь для меня еще и источник полезной информации. Может и я начну делать там блог, если телеграм когда-то умрет (ч.1, ч.2 верим?)
PS Добавляйтесь в друзья🙂
Кстати, все материалы на английском и часть материалов на русском собираю в линкедине, который на удивление является наиболее эффективным инструментом поиска работы/кадров. Абсолютное большинство предложений о работе в последние пару лет пришло ко мне через линкедин, так что не стоит пренебрегать этой соцсетью. И это я про российский рынок труда
PS Добавляйтесь в друзья
Please open Telegram to view this post
VIEW IN TELEGRAM
Medium
A list of python packages for time series analysis
In this article, I will discuss the main tasks encountered when working with time series, as well as which python libraries and packages…
👍22🔥9❤2
Гибридное моделирование
Как правило, гибридным моделированием называют объединение или ансамблирование подходов физико-математического моделирования (первых принципов) и статистического моделирования/моделирования на данных/машинного обучения. Топ-3 популярных подхода (картинка 1):
🔵 The delta model: например, уточнение физ модели в виде свободного члена (поправки) с помощью ML модели
🟢 Physics-based preprocessing: использование результатов физ-мат моделирования как исходных данных в ML модели
🟡 Feature learning: например, виртуальные датчики, построенные с помощью ML, используются в физ-мат модели
📖 Полезная статья с исторической справкой и объяснением базовых принципов и основных подходов от Bosch AI по ссылке. А для тех, кто хочет гораздо глубже погрузиться в гибридное моделирование подойдет их научная статья.
📖 Ну и напоследок поделюсь статьей про "Обслуживание по состоянию" (CBM) в атомной отрасли. Сам любил ссылаться на статью, так как есть информация по тренду на снижение использование ядерной энергии в мире, потенциальному эффекту от перехода к концепции CBM в США (1 млрд $ в год), обзор основных задач диагностики на АЭС и подходов к диагностике. Ну а нам интереснее SWOT анализ гибридного моделирования (картинка 2) и сравнение с другими подходами.
Мое мнение про гибридное моделирование: в промышленности в большинстве кейсов повышет качество решения задачи, почти всегда работает и повышает доверие к моделям, поэтому стоит пробовать, когда предоставляется возможность.
Как правило, гибридным моделированием называют объединение или ансамблирование подходов физико-математического моделирования (первых принципов) и статистического моделирования/моделирования на данных/машинного обучения. Топ-3 популярных подхода (картинка 1):
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥4👏3❤1🤡1
Media is too big
VIEW IN TELEGRAM
Гибридное моделирование
глушения скважин в
условиях АНПД
Кейс применения гибридного моделирования в нефтегазовой отрасли. Проект еще не закончен, по окончании поделюсь финальными результатами.
О докладе: в докладе сотрудники ПИШ НГУ и НОЦ Газпром нефть НГУ Степан Кармушин и Антон Кожухов рассказали о результатах, которых им с командой удалось достичь в рамках решения вызова, связанного с повышением эффективности глушения скважин в сложных геолого-технологических условий. Их решение — гибридное моделирование процесса, объединяющее в себе методы машинного обучения с классическими методами физико-математического моделирования. Разработка ведется в интересах индустриального партнера ПИШ НГУ – компании «Газпром нефть».
Пара полезных научных статей по теме в комментариях👇
глушения скважин в
условиях АНПД
Кейс применения гибридного моделирования в нефтегазовой отрасли. Проект еще не закончен, по окончании поделюсь финальными результатами.
О докладе: в докладе сотрудники ПИШ НГУ и НОЦ Газпром нефть НГУ Степан Кармушин и Антон Кожухов рассказали о результатах, которых им с командой удалось достичь в рамках решения вызова, связанного с повышением эффективности глушения скважин в сложных геолого-технологических условий. Их решение — гибридное моделирование процесса, объединяющее в себе методы машинного обучения с классическими методами физико-математического моделирования. Разработка ведется в интересах индустриального партнера ПИШ НГУ – компании «Газпром нефть».
Пара полезных научных статей по теме в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥8👏4
ИИ в промышленности по данным разных аналитических отчетов. Часть 6
Части 1, 2.1, 2.2, 3, 4, 5
🗺 Карта цифровизации промышленности от TAdviser. Не ИИ, но тоже интересно. Кстати, перекликается с картой из первого поста цикла.
Карта тоже не без недостатков: Рокет Контрол даже пару отраслевых премий выиграла (раз, два), но в списке не появилась. К тому же странно видеть только некоторых заказчиков, занимающихся цифровизацией (Северсталь, дивизионы Росатома), ведь гораздо больше промышленных компаний имеют свои отделы инноваций/цифровизации. А если речь про то, что они продукты на рынок цифровизации делают, то тогда и Гринатома не хватает и НЛМК свою платформу на рынке предлагала.
Хотя в итоге как всегда познавательно!🙂
Части 1, 2.1, 2.2, 3, 4, 5
Карта тоже не без недостатков: Рокет Контрол даже пару отраслевых премий выиграла (раз, два), но в списке не появилась. К тому же странно видеть только некоторых заказчиков, занимающихся цифровизацией (Северсталь, дивизионы Росатома), ведь гораздо больше промышленных компаний имеют свои отделы инноваций/цифровизации. А если речь про то, что они продукты на рынок цифровизации делают, то тогда и Гринатома не хватает и НЛМК свою платформу на рынке предлагала.
Хотя в итоге как всегда познавательно!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥4❤2🤔1