Описал простыми словами специфичные и наиболее распространенные задачи, которые формулируются и решаются при работе с временными рядами. Полезное дополнение для этого и этого постов, в которых вы найдете методы и инструменты для решения задач.
Задачу аугментации наглядно демонстрировал в этом посте.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥8💯4
ИИ в промышленности.pdf
212.6 KB
ИИ в промышленности по данным разных аналитических отчетов. Часть 4
Части 1, 2.1, 2.2, 3
Полезный документ от АНО Цифровая экономика с отсортированным по отраслям списком кейсов ИИ в промышленности в России на 02.08.24. В дополнение к нему отчет📁
Кейсы — это хорошо, но еще лучше послушать доклад от разработчиков и почитать статью на хабре. Как раз такой список материалов я собираю с своем репозитории. Ну и дополняю его регулярно, что тоже важно.
Ранее объяснял в этом посте, почему насмотренность кейсов и чужой опыт важны❗️
Части 1, 2.1, 2.2, 3
Полезный документ от АНО Цифровая экономика с отсортированным по отраслям списком кейсов ИИ в промышленности в России на 02.08.24. В дополнение к нему отчет
Кейсы — это хорошо, но еще лучше послушать доклад от разработчиков и почитать статью на хабре. Как раз такой список материалов я собираю с своем репозитории. Ну и дополняю его регулярно, что тоже важно.
Ранее объяснял в этом посте, почему насмотренность кейсов и чужой опыт важны
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍9👌5❤🔥1👏1
Надеюсь, это последний раз, когда я рассказываю про RUL (уже были пост в канале, статья №1 на хабр, статья №2 на хабр, доклад на ИИшнице and counting...), но каждый раз хочется слегка улучшить и дополнить материал.
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Юрий Кацер | Остаточный ресурс промышленного оборудования
Спикер: Юрий Кацер, Рокет Контрол, DS team lead, эксперт по анализу данных и машинному обучению в задачах промышленности, автор тг-канала @datakatser
Полезные ссылки:
https://github.com/YKatser/Industrial-ML
Data Fest 2024: https://ods.ai/events/datafest2024…
Полезные ссылки:
https://github.com/YKatser/Industrial-ML
Data Fest 2024: https://ods.ai/events/datafest2024…
👍15🔥7❤3🥰1
❌Трансформеры для прогнозирования временных рядов. Часть 1
Я ранее писал о том, как Deep learning и трансформеры не бьют классические подходы и даже эвристики доменных областей. На мой взгляд, это актуально и в промышленности, и для многих задач на временных рядах, включая задачу поиска аномалий.
📎 А в свете активного развития LLM и новых архитектур (пример TimeGPT и Time-LLM) не лишним будет внимательно изучить этот репозиторий с 60+ статьями про то, как трансформеры и LLM не работают❗️ для прогнозирования временных рядов. Про то, что работает, в репозитории тоже есть.
Я ранее писал о том, как Deep learning и трансформеры не бьют классические подходы и даже эвристики доменных областей. На мой взгляд, это актуально и в промышленности, и для многих задач на временных рядах, включая задачу поиска аномалий.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - valeman/Transformers_And_LLM_Are_What_You_Dont_Need: The best repository showing why transformers might not be the answer…
The best repository showing why transformers might not be the answer for time series forecasting and showcasing the best SOTA non transformer models. - valeman/Transformers_And_LLM_Are_What_You_Don...
👍23🔥8💯6❤2
❌Трансформеры для прогнозирования временных рядов. Часть 2
Свежая, не вошедшая в список из предыдущего поста (Часть 1) статья "Are Language Models Actually Useful for Time Series Forecasting?" (текст, репозиторий). Не будет лишним для погружения в тему.
Авторы выделяют следующие моменты:
Речь опять о прогнозировании, но авторы отмечают, что надо расширять анализ и на другие задачи на временных рядах, например, классификацию.🤌
Свежая, не вошедшая в список из предыдущего поста (Часть 1) статья "Are Language Models Actually Useful for Time Series Forecasting?" (текст, репозиторий). Не будет лишним для погружения в тему.
Авторы выделяют следующие моменты:
• Ablation studies: Removing or replacing the LLM components with simpler structures (like basic attention layers) often resulted in improved performance, challenging the assumed superiority of LLMs.
• Computational costs: The study highlights that LLMs significantly increase computational costs without corresponding improvements in forecasting accuracy. Simpler models reduced training and inference time by up to three orders of magnitude.
• Performance comparison: In most cases, simpler models outperformed LLM-based methods across eight standard datasets. For instance, ablations (w/o LLM, LLM2Attn, LLM2Trsf) outperformed Time-LLM in 26/26 cases, LLaTA in 22/26 cases, and OneFitsAll in 19/26 cases.
• Impact of pretraining: Pretraining LLMs on language data did not provide a significant advantage for time series forecasting tasks. Models trained from scratch performed equally well or better.
• Few-shot learning: LLMs did not perform well in few-shot learning scenarios, indicating that their sequence modeling capabilities from text do not transfer effectively to time series data.
Речь опять о прогнозировании, но авторы отмечают, что надо расширять анализ и на другие задачи на временных рядах, например, классификацию.
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥10👌5👍3👏2❤🔥1
Классификация аномалий и задач в области поиска аномалий
Про классификацию аномалий я часто рассказываю в своих докладах (раз, два). Я также писал пост в канал Reliable ML, где затрагивал эту тему. Пришло время собрать всю информацию по теме в один пост. Я, как обычно, опираюсь на классический обзор, немного его дополняя.
🟡 По типу обработки информации (Processing type). Существуют оффлайн и онлайн варианты задачи.
· Оффлайн задача (=сегментация) ставится при наличии полного набора данных, поэтому можно получить оптимальное решение.
· Онлайн ставится, когда данные поступают поточечно (real-time) или батчами, а начало аномалии (точка изменения) должно детектироваться с минимальным запаздыванием.
🟣 По типу данных (Data). Один из вариантов классификации — на структурированные, полуструктурированные и неструктурированные (подробнее здесь). Но более полезной кажется классификация по модальности, поскольку методы поиска аномалий для разных модальностей часто существенно различаются.
· Табличные: это данные, структурированные в строки, каждая из которых содержит информацию об отдельном объекте.
· Временной ряд: это одномерные или многомерные данные, наблюдаемые во времени последовательным образом. В идеальных случаях данные наблюдаются через заранее определенные и равные промежутки времени (например, ежегодно или ежечасно).
· Аудио: это особый случай данных временных рядов, где собираемым признаком является звук. Более подробную информацию о том, что такое звук и аудио, можно найти здесь.
· Изображения: это тензор или многомерный массив, где два измерения (строки и столбцы) представляют собой пространственные координаты (оси x и y), а третье представляет интенсивность или уровень серого.
· Видео: обычно это комбинированный тип аудио и временных рядов изображений (каждый экземпляр относится к типу изображения).
· Текст: это либо отдельные слова, либо слова, объединенные в фразы, предложения и тексты.
📎 Полезная статья о типах данных с точки зрения машинного обучения.
🔵 По наличию разметки данных (Modes by data labels). Можно разделить на с учителем (supervised), с частичным привлечением учителя (semi-supervised) и без учителя (unsupervised).
· Обучения с учителем: требуется, чтобы все данные (как нормального, так и аномального класса) были размечены.
· Обучение с частичным привлечением учителя: обычно речь идет о необходимости иметь часть размеченных данных для каждого класса, но для поиска аномалий чаще всего речь идет о наличии полностью размеченного нормального класса.
· Обучение без учителя: нет разметки ни одного класса. Эти методы часто основаны на предположении, что количество аномальных случаев намного меньше обычных.
🟢 Вывод алгоритмов (AD algorithm output). Существует два основных типа вывода результатов алгоритмов:
· Оценка (score) аномальности: алгоритм выдает для каждой точки степень аномальности. Это позволяет гибко определять границу аномальности на этапе постобработки и, например, управлять ошибками 1го и 2го рода.
· Метки классов: алгоритм выводит для каждой точки метку класса (0/1 или нормальный/аномальный).
🔴 Тип аномалии (Anomaly type). Часто выделяют точечные, коллективные и контекстуальные аномалии.
· Если одна точка демонстрирует аномальное поведение по отношению к остальным данным, то ее называют точечной аномалией.
· Если набор последовательных точек демонстрирует аномальное поведение по отношению к остальным данным, то этот набор точек называют коллективной аномалией.
· В случае, если аномальность данных заметна только в контексте соседних точек, говорят о контекстуальных аномалиях. К этому типу могут относиться как точечные, так и коллективные аномалии.
🔵 Область применения (Application domain). В зависимости от конкретной области знаний или отрасли экономики аномалии можно разделить на различные типы: фрод, кибер-атаки, поломки оборудования и другие. Эти типы относятся к различной природе возникновения аномалий и подразумевают, что следует использовать различные методы поиска аномалий и эвристики предметной области.
Про классификацию аномалий я часто рассказываю в своих докладах (раз, два). Я также писал пост в канал Reliable ML, где затрагивал эту тему. Пришло время собрать всю информацию по теме в один пост. Я, как обычно, опираюсь на классический обзор, немного его дополняя.
· Оффлайн задача (=сегментация) ставится при наличии полного набора данных, поэтому можно получить оптимальное решение.
· Онлайн ставится, когда данные поступают поточечно (real-time) или батчами, а начало аномалии (точка изменения) должно детектироваться с минимальным запаздыванием.
· Табличные: это данные, структурированные в строки, каждая из которых содержит информацию об отдельном объекте.
· Временной ряд: это одномерные или многомерные данные, наблюдаемые во времени последовательным образом. В идеальных случаях данные наблюдаются через заранее определенные и равные промежутки времени (например, ежегодно или ежечасно).
· Аудио: это особый случай данных временных рядов, где собираемым признаком является звук. Более подробную информацию о том, что такое звук и аудио, можно найти здесь.
· Изображения: это тензор или многомерный массив, где два измерения (строки и столбцы) представляют собой пространственные координаты (оси x и y), а третье представляет интенсивность или уровень серого.
· Видео: обычно это комбинированный тип аудио и временных рядов изображений (каждый экземпляр относится к типу изображения).
· Текст: это либо отдельные слова, либо слова, объединенные в фразы, предложения и тексты.
· Обучения с учителем: требуется, чтобы все данные (как нормального, так и аномального класса) были размечены.
· Обучение с частичным привлечением учителя: обычно речь идет о необходимости иметь часть размеченных данных для каждого класса, но для поиска аномалий чаще всего речь идет о наличии полностью размеченного нормального класса.
· Обучение без учителя: нет разметки ни одного класса. Эти методы часто основаны на предположении, что количество аномальных случаев намного меньше обычных.
· Оценка (score) аномальности: алгоритм выдает для каждой точки степень аномальности. Это позволяет гибко определять границу аномальности на этапе постобработки и, например, управлять ошибками 1го и 2го рода.
· Метки классов: алгоритм выводит для каждой точки метку класса (0/1 или нормальный/аномальный).
· Если одна точка демонстрирует аномальное поведение по отношению к остальным данным, то ее называют точечной аномалией.
· Если набор последовательных точек демонстрирует аномальное поведение по отношению к остальным данным, то этот набор точек называют коллективной аномалией.
· В случае, если аномальность данных заметна только в контексте соседних точек, говорят о контекстуальных аномалиях. К этому типу могут относиться как точечные, так и коллективные аномалии.
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥12👍6❤🔥3❤2
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥6❤🔥2👏2
Павел Дуров под стражей, а значит самое время инвестировать в тг-валюту! На самом деле просто я изучаю новый функционал тг
Возможно, вы уже заметили появление золотых звезд среди обычных реакций на посты в телеграм-каналах. Теперь каждый желающий может приобрести эти звезды и использовать их, чтобы выразить поддержку понравившимся публикациям. Авторы каналов могут отслеживать свои звездные накопления в настройках и использовать их для покупки рекламы в телеграме или конвертации в тг-крипту. Поддержка небольшая, но все равно приятно, и пойдет она в любом случае на развитие канала.
Я подключил платные реакции и уже успел собрать несколько звезд — спасибо вам!
Сам планирую поддерживать тех авторов, которые действительно вызывают у меня интерес.
Please open Telegram to view this post
VIEW IN TELEGRAM
27👍12👏5👎3🥰2💩1
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁21🤣9👏4💯3😢1
ИИ в промышленности по данным разных аналитических отчетов. Часть 5
Части 1, 2.1, 2.2, 3, 4
Еще один отчет, теперь от Иннополиса. Ключевые моменты на приложенных картинках. Я бы рекомендовал заглянуть в 2 раздела:
🔴 Энергетика и ИИ
🔴 Промышленность и ИИ
В начале каждого раздела есть интересная информация по ключевым проблемам, трендам отрасли и трендам в направлении ИИ. Сам отчет с упором на патенты, но я большой пользы от патентного ландшафта не вижу, слишком высокая скорость изменений в области ИИ и патенты не раскрывают самые интересные составляющие продуктов — самое интересное всегда под ноу-хау, в опен-сорсе и в научных статьях.
Наверное, какую-то оценку по патентам в технологическом лидерстве делать можно. Напишите, в чем польза в комментах.🙂
📎 Отчет в пдф прикладываю в комментариях.
Части 1, 2.1, 2.2, 3, 4
Еще один отчет, теперь от Иннополиса. Ключевые моменты на приложенных картинках. Я бы рекомендовал заглянуть в 2 раздела:
В начале каждого раздела есть интересная информация по ключевым проблемам, трендам отрасли и трендам в направлении ИИ. Сам отчет с упором на патенты, но я большой пользы от патентного ландшафта не вижу, слишком высокая скорость изменений в области ИИ и патенты не раскрывают самые интересные составляющие продуктов — самое интересное всегда под ноу-хау, в опен-сорсе и в научных статьях.
Наверное, какую-то оценку по патентам в технологическом лидерстве делать можно. Напишите, в чем польза в комментах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍7✍2🔥2👏1😐1
Да-да, дождались, новая порция открытых промышленных данных! Датасет для решения сразу 3х задач диагностики:
Первые 2 объединяют в термин Fault Detection and Diagnosis (FDD), последнюю обозначают термином Remaining Useful Life (RUL).
Постановка описанных задач возможна, так как в датасете по сути 2 разметки:
Набор данных и описание выложены на каггле, можно цитировать:
Iurii Katser. (2024). Power Transformers FDD and RUL [Data set]. Kaggle. https://doi.org/10.34740/KAGGLE/DSV/9296666
Набор данных состоит из 3000 отдельных таблиц, каждая из которых представляет собой характеристику состояния отдельного трансформатора. Таблица содержит 4 колонки-признака, это содержания газов в трансформаторном масле. Таблицы имеют длину 420 строк, каждая из которых является отдельным измерением концентраций с периодом между замерами — 12 часов.
Задачи поиска и классификации аномалий (FDD)
Разметка представляет собой отдельный файл с классами, то есть каждой таблице соответствует 1 лейбл (1 число) класса:
1 — Нормальный режим
2 — Частичный разряд: локальный пробой диэлектрика в газонаполненных полостях;
3 — Низкоэнергетический разряд: искрение или дуговые разряды при плохом контакте элементов конструкции с разным или плавающим потенциалом; разряды между элементами конструкции сердечника ИП, отводами обмотки ВН и баком, обмоткой ВН и заземлением; выделения в масле при переключении контактов;
4 — Низкотемпературный перегрев: нарушение потока масла в каналах охлаждения обмоток, магнитная система, что приводит к низкой эффективности системы охлаждения при температурах < 300 °С.
Данные использовались для решения задачи поиска аномалий в этой статье, писал про это в канале (раз, два, три).
Задача оценки остаточного ресурса (RUL)
Здесь каждой таблице соответствует 1 число — остаточный ресурс трансформатора на момент окончания данных в таблице в виде количества точек.
Очень подробно данные и задача рассмотрены здесь (+ пост в канале).
Please open Telegram to view this post
VIEW IN TELEGRAM
Kaggle
Power Transformers FDD and RUL
Datasets with dissolved gases concentrations in power transformer oil
11👍22🔥10👏2❤1