ИИ в промышленности по данным разных аналитических отчетов. Часть 5
Части 1, 2.1, 2.2, 3, 4
Еще один отчет, теперь от Иннополиса. Ключевые моменты на приложенных картинках. Я бы рекомендовал заглянуть в 2 раздела:
🔴 Энергетика и ИИ
🔴 Промышленность и ИИ
В начале каждого раздела есть интересная информация по ключевым проблемам, трендам отрасли и трендам в направлении ИИ. Сам отчет с упором на патенты, но я большой пользы от патентного ландшафта не вижу, слишком высокая скорость изменений в области ИИ и патенты не раскрывают самые интересные составляющие продуктов — самое интересное всегда под ноу-хау, в опен-сорсе и в научных статьях.
Наверное, какую-то оценку по патентам в технологическом лидерстве делать можно. Напишите, в чем польза в комментах.🙂
📎 Отчет в пдф прикладываю в комментариях.
Части 1, 2.1, 2.2, 3, 4
Еще один отчет, теперь от Иннополиса. Ключевые моменты на приложенных картинках. Я бы рекомендовал заглянуть в 2 раздела:
В начале каждого раздела есть интересная информация по ключевым проблемам, трендам отрасли и трендам в направлении ИИ. Сам отчет с упором на патенты, но я большой пользы от патентного ландшафта не вижу, слишком высокая скорость изменений в области ИИ и патенты не раскрывают самые интересные составляющие продуктов — самое интересное всегда под ноу-хау, в опен-сорсе и в научных статьях.
Наверное, какую-то оценку по патентам в технологическом лидерстве делать можно. Напишите, в чем польза в комментах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍7✍2🔥2👏1😐1
Да-да, дождались, новая порция открытых промышленных данных! Датасет для решения сразу 3х задач диагностики:
Первые 2 объединяют в термин Fault Detection and Diagnosis (FDD), последнюю обозначают термином Remaining Useful Life (RUL).
Постановка описанных задач возможна, так как в датасете по сути 2 разметки:
Набор данных и описание выложены на каггле, можно цитировать:
Iurii Katser. (2024). Power Transformers FDD and RUL [Data set]. Kaggle. https://doi.org/10.34740/KAGGLE/DSV/9296666
Набор данных состоит из 3000 отдельных таблиц, каждая из которых представляет собой характеристику состояния отдельного трансформатора. Таблица содержит 4 колонки-признака, это содержания газов в трансформаторном масле. Таблицы имеют длину 420 строк, каждая из которых является отдельным измерением концентраций с периодом между замерами — 12 часов.
Задачи поиска и классификации аномалий (FDD)
Разметка представляет собой отдельный файл с классами, то есть каждой таблице соответствует 1 лейбл (1 число) класса:
1 — Нормальный режим
2 — Частичный разряд: локальный пробой диэлектрика в газонаполненных полостях;
3 — Низкоэнергетический разряд: искрение или дуговые разряды при плохом контакте элементов конструкции с разным или плавающим потенциалом; разряды между элементами конструкции сердечника ИП, отводами обмотки ВН и баком, обмоткой ВН и заземлением; выделения в масле при переключении контактов;
4 — Низкотемпературный перегрев: нарушение потока масла в каналах охлаждения обмоток, магнитная система, что приводит к низкой эффективности системы охлаждения при температурах < 300 °С.
Данные использовались для решения задачи поиска аномалий в этой статье, писал про это в канале (раз, два, три).
Задача оценки остаточного ресурса (RUL)
Здесь каждой таблице соответствует 1 число — остаточный ресурс трансформатора на момент окончания данных в таблице в виде количества точек.
Очень подробно данные и задача рассмотрены здесь (+ пост в канале).
Please open Telegram to view this post
VIEW IN TELEGRAM
Kaggle
Power Transformers FDD and RUL
Datasets with dissolved gases concentrations in power transformer oil
11👍22🔥10👏2❤1
По странному стечению обстоятельств с большим запозданием пишу про интереснейший отчет ИТМО по итогам исследования open-source в России. Ребята давно исследуют тему и сами двигают open-source вперед (например, FEDOT и сообщество @itmo_opensource), писал про это здесь. А я в исследовании участвовал в качестве эксперта (какой open-source, такой и эксперт, хотя может я путаю причину и следствие🤔)
Наш датасет SKAB не рекламировал, но в обзор он все-таки попал, это приятно. Что такое "ядро обнаружения аномалий" я вам не расскажу, так как сам не знаю.😅
Еще недавно давал комментарий к другой статье про open-source (habr, vc), опять жаловался на промышленность. А вообще у автора там серия статей про open-source.
Хотя я не только жалуюсь, но и продолжаю вносить небольшой вклад в open-source в промышленности на кэггле (датасеты) и гитхабе (все остальное).
Наш датасет SKAB не рекламировал, но в обзор он все-таки попал, это приятно. Что такое "ядро обнаружения аномалий" я вам не расскажу, так как сам не знаю.😅
Еще недавно давал комментарий к другой статье про open-source (habr, vc), опять жаловался на промышленность. А вообще у автора там серия статей про open-source.
Хотя я не только жалуюсь, но и продолжаю вносить небольшой вклад в open-source в промышленности на кэггле (датасеты) и гитхабе (все остальное).
opensource.itmo.ru
ITMO Opensource
1👍25🔥8😎4
В одном посте на английском языке собрал основные задачи на временных рядах и библиотеки для автоматизации их решения. При этом слегка обновил опубликованную в канале версию документа.
Кстати, все материалы на английском и часть материалов на русском собираю в линкедине, который на удивление является наиболее эффективным инструментом поиска работы/кадров. Абсолютное большинство предложений о работе в последние пару лет пришло ко мне через линкедин, так что не стоит пренебрегать этой соцсетью. И это я про российский рынок труда🧐 . А еще на линкедине я с удовольствием читаю пару интереснейших блогов про временные ряды и промышленность, так что это теперь для меня еще и источник полезной информации. Может и я начну делать там блог, если телеграм когда-то умрет (ч.1, ч.2 верим?)
PS Добавляйтесь в друзья🙂
Кстати, все материалы на английском и часть материалов на русском собираю в линкедине, который на удивление является наиболее эффективным инструментом поиска работы/кадров. Абсолютное большинство предложений о работе в последние пару лет пришло ко мне через линкедин, так что не стоит пренебрегать этой соцсетью. И это я про российский рынок труда
PS Добавляйтесь в друзья
Please open Telegram to view this post
VIEW IN TELEGRAM
Medium
A list of python packages for time series analysis
In this article, I will discuss the main tasks encountered when working with time series, as well as which python libraries and packages…
👍22🔥9❤2
Гибридное моделирование
Как правило, гибридным моделированием называют объединение или ансамблирование подходов физико-математического моделирования (первых принципов) и статистического моделирования/моделирования на данных/машинного обучения. Топ-3 популярных подхода (картинка 1):
🔵 The delta model: например, уточнение физ модели в виде свободного члена (поправки) с помощью ML модели
🟢 Physics-based preprocessing: использование результатов физ-мат моделирования как исходных данных в ML модели
🟡 Feature learning: например, виртуальные датчики, построенные с помощью ML, используются в физ-мат модели
📖 Полезная статья с исторической справкой и объяснением базовых принципов и основных подходов от Bosch AI по ссылке. А для тех, кто хочет гораздо глубже погрузиться в гибридное моделирование подойдет их научная статья.
📖 Ну и напоследок поделюсь статьей про "Обслуживание по состоянию" (CBM) в атомной отрасли. Сам любил ссылаться на статью, так как есть информация по тренду на снижение использование ядерной энергии в мире, потенциальному эффекту от перехода к концепции CBM в США (1 млрд $ в год), обзор основных задач диагностики на АЭС и подходов к диагностике. Ну а нам интереснее SWOT анализ гибридного моделирования (картинка 2) и сравнение с другими подходами.
Мое мнение про гибридное моделирование: в промышленности в большинстве кейсов повышет качество решения задачи, почти всегда работает и повышает доверие к моделям, поэтому стоит пробовать, когда предоставляется возможность.
Как правило, гибридным моделированием называют объединение или ансамблирование подходов физико-математического моделирования (первых принципов) и статистического моделирования/моделирования на данных/машинного обучения. Топ-3 популярных подхода (картинка 1):
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥4👏3❤1🤡1
Media is too big
VIEW IN TELEGRAM
Гибридное моделирование
глушения скважин в
условиях АНПД
Кейс применения гибридного моделирования в нефтегазовой отрасли. Проект еще не закончен, по окончании поделюсь финальными результатами.
О докладе: в докладе сотрудники ПИШ НГУ и НОЦ Газпром нефть НГУ Степан Кармушин и Антон Кожухов рассказали о результатах, которых им с командой удалось достичь в рамках решения вызова, связанного с повышением эффективности глушения скважин в сложных геолого-технологических условий. Их решение — гибридное моделирование процесса, объединяющее в себе методы машинного обучения с классическими методами физико-математического моделирования. Разработка ведется в интересах индустриального партнера ПИШ НГУ – компании «Газпром нефть».
Пара полезных научных статей по теме в комментариях👇
глушения скважин в
условиях АНПД
Кейс применения гибридного моделирования в нефтегазовой отрасли. Проект еще не закончен, по окончании поделюсь финальными результатами.
О докладе: в докладе сотрудники ПИШ НГУ и НОЦ Газпром нефть НГУ Степан Кармушин и Антон Кожухов рассказали о результатах, которых им с командой удалось достичь в рамках решения вызова, связанного с повышением эффективности глушения скважин в сложных геолого-технологических условий. Их решение — гибридное моделирование процесса, объединяющее в себе методы машинного обучения с классическими методами физико-математического моделирования. Разработка ведется в интересах индустриального партнера ПИШ НГУ – компании «Газпром нефть».
Пара полезных научных статей по теме в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥8👏4
ИИ в промышленности по данным разных аналитических отчетов. Часть 6
Части 1, 2.1, 2.2, 3, 4, 5
🗺 Карта цифровизации промышленности от TAdviser. Не ИИ, но тоже интересно. Кстати, перекликается с картой из первого поста цикла.
Карта тоже не без недостатков: Рокет Контрол даже пару отраслевых премий выиграла (раз, два), но в списке не появилась. К тому же странно видеть только некоторых заказчиков, занимающихся цифровизацией (Северсталь, дивизионы Росатома), ведь гораздо больше промышленных компаний имеют свои отделы инноваций/цифровизации. А если речь про то, что они продукты на рынок цифровизации делают, то тогда и Гринатома не хватает и НЛМК свою платформу на рынке предлагала.
Хотя в итоге как всегда познавательно!🙂
Части 1, 2.1, 2.2, 3, 4, 5
Карта тоже не без недостатков: Рокет Контрол даже пару отраслевых премий выиграла (раз, два), но в списке не появилась. К тому же странно видеть только некоторых заказчиков, занимающихся цифровизацией (Северсталь, дивизионы Росатома), ведь гораздо больше промышленных компаний имеют свои отделы инноваций/цифровизации. А если речь про то, что они продукты на рынок цифровизации делают, то тогда и Гринатома не хватает и НЛМК свою платформу на рынке предлагала.
Хотя в итоге как всегда познавательно!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥4❤2🤔1
Open-source наработки в промышленности
Одна из мер поддержки опен-сорса в РФ, упомянутая отчете из этого поста, это гранты Код-ИИ. Я и сам участвовал в проекте, получившем такой грант. В этом посте поделюсь парой проектов, получивших грант и относящихся к промышленности.
1️⃣ CVFlow (13 звезд, последний коммит 4 месяца назад) — открытая библиотека CV для промышленности
Github | Youtube
Решает следующие задачи:
🔘 Определение положения объектов в пространстве и расстояния между ними
🔘 Поиск дефектов и прочих образований на материале
🔘 Распознавание номера автомобилей
🔘 Распознавание номера вагона поезда
🔘 Распознавание QR и штрихкодов
🔘 Классификация транспортных средств
🔘 Гранулометрия, распознавание размеров однородных объектов
🔘 Определения скорости объектов по видеопотоку
Из реально интересных задач: гранулометрия и поиск дефектов на материале.
Из преимуществ: доступны веса предобученных моделей, хотя нет доступных данных.
2️⃣ TSAD — Time Series Analysis for Simulation of Technological Processes (39 звезд, последний коммит 5 месяцев назад) — python библиотека для решения ML задач в промышленности
Github | Youtube
Решает следующие задачи:
🔘 Прогнозирование временных рядов
🔘 Поиск аномалий
🔘 Автоматизированный разведочный анализ данных
🔘 Предварительная обработка данных
🔘 Визуализация результатов
🔘 Оценки качества решения задач, включая специфичные задачи типа changepoint detection
Из преимуществ: неплохая документация, доступны данные, упор на работу с промышленными данными и решение задач PHM (Prognostics and Health Management)
Общий недостаток обеих библиотек: недостаточность функционала и недоработанность кода/подходов.Зато у каждого есть шанс поучаствовать и улучшить библиотеки
Одна из мер поддержки опен-сорса в РФ, упомянутая отчете из этого поста, это гранты Код-ИИ. Я и сам участвовал в проекте, получившем такой грант. В этом посте поделюсь парой проектов, получивших грант и относящихся к промышленности.
1️⃣ CVFlow (13 звезд, последний коммит 4 месяца назад) — открытая библиотека CV для промышленности
Github | Youtube
Решает следующие задачи:
Из реально интересных задач: гранулометрия и поиск дефектов на материале.
Из преимуществ: доступны веса предобученных моделей, хотя нет доступных данных.
2️⃣ TSAD — Time Series Analysis for Simulation of Technological Processes (39 звезд, последний коммит 5 месяцев назад) — python библиотека для решения ML задач в промышленности
Github | Youtube
Решает следующие задачи:
Из преимуществ: неплохая документация, доступны данные, упор на работу с промышленными данными и решение задач PHM (Prognostics and Health Management)
Общий недостаток обеих библиотек: недостаточность функционала и недоработанность кода/подходов.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥5❤4
Привет, друзья! 👋
Приглашаю вас на конференцию Industrial++, которая пройдет 21-22 октября в Москве! Уже упоминал, что я член программного комитета и приложил руку к созданию программы и отбору докладов, чтобы сделать это событие максимально полезным и интересным для всех участников. Для меня интересный опыт побывать с другой стороны, не в качестве докладчика. Здесь вас ждут реальные кейсы и проверенные решения, которые помогают компаниям справляться с разными вызовами, включая импортозамещение.💻
В программе — 56 докладов, панельные дискуссии и выставка с новейшими разработками. Это отличная возможность узнать, как компании внедряют российские и open source решения, и обменяться опытом с коллегами.
А после первого дня нас ждет афтепати!🎉
Но я не просто так пишу: промокод YKatser даёт 7% скидки на участие онлайн и офлайн — для физлиц и юрлиц. Самое время успеть купить билеты со скидкой!
До встречи на Industrial++!
https://industrialconf.ru/2024/
Приглашаю вас на конференцию Industrial++, которая пройдет 21-22 октября в Москве! Уже упоминал, что я член программного комитета и приложил руку к созданию программы и отбору докладов, чтобы сделать это событие максимально полезным и интересным для всех участников. Для меня интересный опыт побывать с другой стороны, не в качестве докладчика. Здесь вас ждут реальные кейсы и проверенные решения, которые помогают компаниям справляться с разными вызовами, включая импортозамещение.
В программе — 56 докладов, панельные дискуссии и выставка с новейшими разработками. Это отличная возможность узнать, как компании внедряют российские и open source решения, и обменяться опытом с коллегами.
А после первого дня нас ждет афтепати!
Но я не просто так пишу: промокод YKatser даёт 7% скидки на участие онлайн и офлайн — для физлиц и юрлиц. Самое время успеть купить билеты со скидкой!
До встречи на Industrial++!
https://industrialconf.ru/2024/
Please open Telegram to view this post
VIEW IN TELEGRAM
industrialconf.ru
Профессиональная конференция для IT-специалистов реального сектора 2024
👍14🔥7🍾3💩2😨2⚡1
❌Трансформеры для прогнозирования временных рядов. Часть 3
Части 1, 2
Завершу пока цикл постов на тему рекомендацией двух отличных докладов от лидирующих в теме компаний в России (Сбер и Т-банк):
• Foundation модели: есть ли жизнь во временных рядах
• Forecast and chill: Zero-Shot Foundation Models for Time Series
Есть и погружение в тему, и обзоры решений, и разборы архитектур. Подсвечены, кстати, положительные моменты и условия применения таких моделей.
Без лишних слов отправляю вас смотреть и делать свои выводы.
Части 1, 2
Завершу пока цикл постов на тему рекомендацией двух отличных докладов от лидирующих в теме компаний в России (Сбер и Т-банк):
• Foundation модели: есть ли жизнь во временных рядах
• Forecast and chill: Zero-Shot Foundation Models for Time Series
Есть и погружение в тему, и обзоры решений, и разборы архитектур. Подсвечены, кстати, положительные моменты и условия применения таких моделей.
Без лишних слов отправляю вас смотреть и делать свои выводы.
👍11❤5🔥3
Поделюсь тремя статьями, которые прочитал за последнее время:
Буду периодически на выходных делиться интересными мне темами вне основных направлений канала.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥7❤3🤔2🤯1
Байесовские методы в обнаружении точек изменений состояния (changepoint detection)
Согласно определению, поиск точек изменений состояния (changepoint detection) — это метод определения моментов времени, когда распределение вероятностей временного ряда изменяется. В этом посте рассматриваются байесовские методы, предназначенные для решения задачи. Данный подход представляет собой вероятностный метод, который позволяет построить распределение вероятностей нахождения точек изменения в данных, опираясь на априорные знания об этих событиях. Реализация в коде на GitHub по ссылке.
Идея подхода заключается в предположении, что части временного ряда, разбитые точками изменений на непересекающиеся части, состоят из независимых и одинаково распределенных случайных величин. Другими словами, точки изменений являются границами для данных из распределений с разными параметрами.
Если вы знакомы с байесовской статистикой, вы знаете, что построение любой байесовской модели в основном состоит из трех распределений. Априорное распределение h(θ) отражает наши предварительные знания о задаче. Функция правдоподобия f(x|θ) отражает полученные данные и участвует в вычислении апостериорного распределения вероятностей. И апостериорное распределение h(θ|x), которое нас интересует. Суть алгоритма байесовского метода заключается в итеративном обновлении этих вероятностей, при этом ключевым моментом является то, в каком виде задаются априорная вероятность и функция правдоподобия.
📎 В статье рекомендуют использовать геометрическое распределение в качестве априорной вероятности, но в целом её выбор зависит от предварительных знаний о данных в задаче, более подробно об этом можно прочитать тут.
Для работы с многомерным временным рядом представлю вам две основные модели, которые отличаются заданием функции правдоподобия:
🔴 В модели независимых признаков (Independent Features Model) делается предположение об условной независимости между временными рядами (как в наивном байесовском классификаторе). Преимуществом такого подхода является малое количество данных, необходимых для обучения модели. Но предположение о независимости не позволяет уловить корреляцию между временным рядами, что сказывается на качестве работы модели и является недостатком.
🔴 Модель полной ковариации (Full Covariance Model), в отличие от IFM, использует правдоподобие с учетом зависимости между временными рядами. Это сказывается на инференсе модели, а также требует большего количество данных для получения информативных корреляций между рядами.
Предпочтение в выборе модели делается исходя из входных данных в задаче, более подробно узнать о моделях с примерами работы IFM и FCM можно тут.
Байесовские методы в обнаружении точек изменений нашли применение в разных сферах, связанных с анализом временных рядов, преимущественно в промышленности и инженерии. Данный подход, при предварительной обработке данных, позволяет добиться сравнительно высокого качества работы модели (топ-1 без тюнинга на SKAB). Как и любая статистическая модель, байесовские методы требуют меньшего количества входных данных для работы и более интерпретируемы, чем DL-подходы. Из минусов данного алгоритма стоит отметить его квадратичную временную сложность и сильную зависимость от выбора априорной вероятности. Для того чтобы получить более полное представление о методах обнаружения точек изменений, можно ознакомиться со статьей "An evaluation of change point detection algorithms".
Пост написан Ильей Кульбаченко с моими редакторскими правками.
Согласно определению, поиск точек изменений состояния (changepoint detection) — это метод определения моментов времени, когда распределение вероятностей временного ряда изменяется. В этом посте рассматриваются байесовские методы, предназначенные для решения задачи. Данный подход представляет собой вероятностный метод, который позволяет построить распределение вероятностей нахождения точек изменения в данных, опираясь на априорные знания об этих событиях. Реализация в коде на GitHub по ссылке.
Идея подхода заключается в предположении, что части временного ряда, разбитые точками изменений на непересекающиеся части, состоят из независимых и одинаково распределенных случайных величин. Другими словами, точки изменений являются границами для данных из распределений с разными параметрами.
Если вы знакомы с байесовской статистикой, вы знаете, что построение любой байесовской модели в основном состоит из трех распределений. Априорное распределение h(θ) отражает наши предварительные знания о задаче. Функция правдоподобия f(x|θ) отражает полученные данные и участвует в вычислении апостериорного распределения вероятностей. И апостериорное распределение h(θ|x), которое нас интересует. Суть алгоритма байесовского метода заключается в итеративном обновлении этих вероятностей, при этом ключевым моментом является то, в каком виде задаются априорная вероятность и функция правдоподобия.
Для работы с многомерным временным рядом представлю вам две основные модели, которые отличаются заданием функции правдоподобия:
Предпочтение в выборе модели делается исходя из входных данных в задаче, более подробно узнать о моделях с примерами работы IFM и FCM можно тут.
Байесовские методы в обнаружении точек изменений нашли применение в разных сферах, связанных с анализом временных рядов, преимущественно в промышленности и инженерии. Данный подход, при предварительной обработке данных, позволяет добиться сравнительно высокого качества работы модели (топ-1 без тюнинга на SKAB). Как и любая статистическая модель, байесовские методы требуют меньшего количества входных данных для работы и более интерпретируемы, чем DL-подходы. Из минусов данного алгоритма стоит отметить его квадратичную временную сложность и сильную зависимость от выбора априорной вероятности. Для того чтобы получить более полное представление о методах обнаружения точек изменений, можно ознакомиться со статьей "An evaluation of change point detection algorithms".
Пост написан Ильей Кульбаченко с моими редакторскими правками.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍9❤5
Меня эта тема не интересовала на столько же сильно, как многие другие (хард скиллы, выстраивание процессов, ведение проектов и тд), поэтому и разбираюсь я в ней не так хорошо. Мое воспитание, становление и опыт сделали меня человеком, умеющим ладить и договариваться с людьми, поэтому в управление людьми я вкатился без особых проблем. Но я все равно хочу поделиться своими немногими мыслями на эту тему.
Мой опыт, что полезно делать:
1. Вникать в процессы управления, с начала карьеры на своем рабочем месте.
2. Получать опыт от коллег: общаться и смотреть разные видео, например, с тимлид конф, я собирал список интересных мне лекций здесь.
3. Вникать в смежные процессы, разбираться в них, анализировать, как они работают, как их поддерживают и тд. Как руководителю вам предстоит скорее всего общаться не только со своей командой.
4. Я почти всю свою карьеру работал параллельно больше, чем в одном месте. Это однозначно ускоряет получение разного опыта (но требует много сил и желания).
5. Максимально полезно получить опыт работы в очень разных условиях:
Помогает понять свои сильные и слабые стороны, нащупать свой стиль управление и наметить движение в каком-то направлении.
6. Лично мне помогли хакатоны, в которых, будучи капитаном, я в «лабораторных» условиях примерял на себя роль руководителя и учился публичным выступлениям в довесок.
Какие общие советы я еще могу дать:
· Школа сильных программистов
· Agima
· Сбер
· Otus
Я не могу сказать, что я на сто процентов эффективен и не совершаю ошибок. Именно поэтому я считаю, что процесс обучения непрерывен (как и в IT в целом), но зато учиться можно эффективно на своем опыте.
Дополняйте пост своим мнение по курсам/книгам/видео или в целом по теме в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍8🔥5
A Survey of Network-basedIntrusionDetectionDataSets.pdf
473.7 KB
Для меня эталонный научный обзор датасетов (не зря 500+ цитирований❗️ ). Жаль, что он в области поиска аномалий в сетевом трафике (network intrusion detection). Однако, если вы занимаетесь такими задачами, то вам повезло не только из-за наличия такого обзора, но и из-за наличия большого числа разнообразных датасетов (пусть и большая часть из них синтетика). Как будто с данными тут получше, чем в промышленных процессах.
В статье помимо самого обзора датасетов есть:
🟡 Анализ характеристик датасетов и их сравнение
🟡 Обзор репозиториев с наборами датасетов
🟡 Обзор моделей для генерации трафика
🟡 Рекомендации по датасетам и работе с ними
С реальными задачами в этой области я не сталкивался (пишите в комментариях советы, если есть опыт), но как-то участвовал в хакатоне, даже материалы сохранились — будет полезно, если совсем ничего не знаете, но хотите немного погрузиться в область. Тип аномалий, конечно, специфичный (писал об этом здесь), как и используемые методы: задачи часто supervised, данные скорее табличные, поэтому и методы деревянные стреляют.
Ссылка на официальную публикацию в журнале.
В статье помимо самого обзора датасетов есть:
С реальными задачами в этой области я не сталкивался (пишите в комментариях советы, если есть опыт), но как-то участвовал в хакатоне, даже материалы сохранились — будет полезно, если совсем ничего не знаете, но хотите немного погрузиться в область. Тип аномалий, конечно, специфичный (писал об этом здесь), как и используемые методы: задачи часто supervised, данные скорее табличные, поэтому и методы деревянные стреляют.
Ссылка на официальную публикацию в журнале.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍4💯4
Довольно распространенный кейс применения CV в промышленности.
Начнем с постановки задачи
Необходимо определять распределение классов крупности руды в режиме реального времени. Простыми словами:
...руда постоянно разная, например, из-за плотности породы, качества взрыва. Если вчера у нас шла более крупная фракция, то сегодня мельница будет перемалывать руду дольше, и наоборот. В мельницу попадают камни разной фракции, и чтобы та работала производительнее, нужно постоянно корректировать параметры мельницы и подаваемых в неё материалов.
Способы решения
Конечно, задача может решаться разными, в т.ч. традиционными способами, CV совсем не обязательно:
Но сравнение способов, доказывающее эффективность CV, здесь.
Эффекты от решения
Основные эффекты такого решения на обогатительной фабрике от оптимизации управления питателями, мельницей, дробилками и др оборудованием на основе данных CV. Очень мало информации про фактические эффекты, так как мало кто управляет оборудованием + вычленить эффект от цифрового гранулометра из всей оптимизации управления сложно.
Открытые данные и код
С научной точки зрения (код, статья и данные) есть такой репозиторий. А вот еще один репозиторий с кадрами с конвеера с разметкой. Уже должно хватать данных для бейзлайна.
Что можно подчерпнуть из опыта коллег
…и тд. Нюансов много, большую часть можно узнать из материалов в посте.
Примеры решений:
Еще гранулометрию можно делать после буровзрывных работ (для определения качества взрыва), в ковше экскаватора, в кузовах самосвалов (можно дополнительно оценивать и уменьшать недогруз транспорта). Но пользы от этого для дальнейшего управления не так много, потому что отследить руду из ковша экскаватора до момента попадания в дробилки или мельницу часто невозможно.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥5👏2❤1
Я вообще фанат подкастов, сам ходил пару раз, в этот раз делюсь выпуском "Где можно и где нельзя без ML в промышленности" подкаста "Деньги любят техно" с Михаилом Граденко (Русал). Ниже отмечу и прокомментирую лично для меня интересные моменты.
🔵 3 мира DS:
• Каггловский — бьемся за десятые доли улучшения метрики.
• Ресерчерский — создаем новые алгоритмы, двигаем SOTA.
• Прикладной — сделать достаточно хорошее решение наименьшими усилиями. В промышленности существует исключительно третий вариант.
🔵 Не могу говорить за Русал, но обобщать на промышленность тезис “все технологические параметры оцифрованы” я бы не стал, так как на своем опыте скажу, что в абсолютно каждом проекте я сталкивался с недостаточной оцифровкой процесса. Данных может быть достаточно для решения задачи, но какой-то хотя бы один полезный показатель обязательно будет вестись в бумажном журнале или самописной системе, с которой не интегрироваться.
🔵 Данных очень много, надо лишь в них разобраться. Я говорил об этом здесь, но стоит оговориться, что иногда не хватает какого-то важного показателя, сохранения достаточной истории данных, или данные где-то избыточно (для задач DS) преобразовываются.
🔵 Михаил подтвердил тезис, который я давно исследую и транслирую: RL далеко от прикладного использования в промышленности, так как чаще всего слишком дорого строить сложные модели.
🔵 Для DSов в промышленности важно знать физику и уметь разбираться в технологическом процессе. Я пойду дальше и скажу, что умение разбираться в технологическом процессе даже важнее, чем навыки DS. Недавно обсуждали с Head of DS крупной промышленной корпорации, что выше вероятность сделать проект и принести эффект у “технолога с небольшими навыками DS”, чем у “DSа с небольшими знаниями технологии”. Правда тут еще и кроется момент с командировками, умением общаться на фабриках и тд. Напишу об этом в отдельном посте.
🔵 Больше 80% DS проектов не взлетает. В разных источниках я встречал от 30% (в промышленных компаниях) до 95%, надо будет об этом обязательно написать.
🔵 Если можно делать продукт без ИИ, то его надо делать без ИИ. Это дешевле, проще, надежнее. Я об этом говорю периодически в своих выступлениях, особенно считаю полезным для студентов.
🔵 Еще один инсайд для решения задачи определения гран состава: достаточные данные собираются за год.
🔵 Не все (проекты) надо делать. Попытка везде засунуть новые технологии ради чего-то не оправдывается с экономической точки зрения. Бизнес он про деньги. Это очень понятный и приземляющий тезис, в промышленности часто нет места RnD и экспериментам.
В подкасте больше полезного, чем я отметил, к тому же в конце пара кейсов — качаем насмотренность.
• Каггловский — бьемся за десятые доли улучшения метрики.
• Ресерчерский — создаем новые алгоритмы, двигаем SOTA.
• Прикладной — сделать достаточно хорошее решение наименьшими усилиями. В промышленности существует исключительно третий вариант.
В подкасте больше полезного, чем я отметил, к тому же в конце пара кейсов — качаем насмотренность.
Please open Telegram to view this post
VIEW IN TELEGRAM
Podcast.ru
Где можно и где нельзя без ML в промышленности – Деньги любят техно – Podcast.ru
Работа Data Science-специалистов в промышленных компаниях строится по своим правилам и требует специфических навыков: нужно не только любить математику, но и дружить с физикой, и разбираться в технологии. Кроме того, работа DS-команд вплотную связана с людьми…
👍22🔥10❤4
Прошла конференция Industrial++, на которой я был не только членом программного комитета, но теперь и амбассадором. Работа ПК заключалась в подготовке к конференции, но на самой конференции мы могли полноценно почувствовать себя участниками: посещать доклады, общаться и участвовать в активностях.
tldr: по материалам получилась топ-конференция, по ИИ а промке докладов много, еще долго буду их изучать
Из-за нехватки времени я успел прослушать только четыре доклада:
🔵 Машинное зрение для распознавания гранулометрического состава руды
🔵 Система управления эффективностью автоматического регулирования
🔵 Увеличение производительности горно-обогатительного комбината с помощью ИИ
🔵 Система прогнозного обслуживания эксгаустеров агломерационной фабрики
Зато слушал так внимательно, что выиграл целых три приза за лучшие вопросы❗️
Среди особенно интересных докладов, которые буду смотреть в записи, отмечу:
🟢 «Помощник технолога»: сервис для оптимизации параметров производственных литейных процессов
🟢 Оптимизация системы заводнения на нефтяных месторождениях
🟢 Применение Zero-shot и искусственных данных в компьютерном зрении
🟢 ML-аналитика для оптимизации энергопотребления на установках НПЗ
Презентации с сотнями полезных ссылок и инсайтов доступны на сайте конференции бесплатно. Я просмотрел почти все и забрал себе в обзор кейсов папку с материалами.
В подготовке двух докладов (“Фотограмметрия и ИИ для инвентаризации строительных материалов” и “Анализ леса по съемке с беспилотника”) участвовал как куратор — ребятам огромный респект за сотрудничество и качественные выступления.
Во время конференции успел дать флеш-интервью, получить лучшую худи из всех, что у меня были, познакомиться с коллегами, внедряющими ML в промышленности, и встретиться со знакомыми и бывшими коллегами.
P.S. На фото команда организаторов и докладчиков — можете поиграть в Find Waldo
tldr: по материалам получилась топ-конференция, по ИИ а промке докладов много, еще долго буду их изучать
Из-за нехватки времени я успел прослушать только четыре доклада:
Зато слушал так внимательно, что выиграл целых три приза за лучшие вопросы
Среди особенно интересных докладов, которые буду смотреть в записи, отмечу:
Презентации с сотнями полезных ссылок и инсайтов доступны на сайте конференции бесплатно. Я просмотрел почти все и забрал себе в обзор кейсов папку с материалами.
В подготовке двух докладов (“Фотограмметрия и ИИ для инвентаризации строительных материалов” и “Анализ леса по съемке с беспилотника”) участвовал как куратор — ребятам огромный респект за сотрудничество и качественные выступления.
Во время конференции успел дать флеш-интервью, получить лучшую худи из всех, что у меня были, познакомиться с коллегами, внедряющими ML в промышленности, и встретиться со знакомыми и бывшими коллегами.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥14👏2
SKAB (Skoltech Anomaly Benchmark) —бенчмарк для оценки методов обнаружения аномалий во временных рядах
Я постоянно делюсь наборами данных, пришла пора рассказать провенец творения SKAB. По некоторым критериям его можно назвать лучшим бенчмарком методов поиска аномалий на временных рядах в технических системах
История создания
Как только в процессе исследований в аспирантуре удалось глубоко погрузиться и опробовать существующие SOTA методы для поиска аномалий, мы начали разрабатывать свои. Тогда мы и столкнулись с недостатком публичных датасетов для проверки и демонстрации качества этих методов. Так как всегда получалось дружить с промышленными компаниями, у нас не было недостатка проприетарных реальных данных с оборудования. Но для научной деятельности и демонстрации результатов все-таки лучше подходят публичные данные, чтобы каждый зашел, убедился в подлинности результатов и сравнил свои методы на том же наборе. А те открытые данные, что есть, чаще всего имеют большие проблемы, и их очень сложно использовать. Это и побудило создать собственный набор данных, который не имел бы распространенных проблем, был открыт для всех исследователей (=опенсорсный) с доступным описанием, метриками, результатами. Вот тогда мы с Вячеславом Козициным и пришли к идее SKAB’а: описали основные требования, сформировали видение экспериментов и приступили к сбору данных на установке в Сколтехе.
Описание и задачи
Бенчмарк состоит из 34 датасетов с коллективными аномалиями (в каждом по 1 аномалии) и 1 датасета с неаномальной эксплуатацией установки. Кроме датасетов, SKAB содержит подробное описание установки, датчиков, данных, EDA, более 10 реализованных алгоритмов поиска аномалий, блокноты с экспериментами, лидерборд с результатами, методики оценки для разных математических проблем, код для оценки и тд. Данные размечены для 2х основных математических проблем в области поиска аномалий:
🔘 Бинарная классификация (или поиск выбросов/outlier detection, т.е. данные размечены как точечные аномалии)
🔘 Поиск точек изменения состояния (или changepoint detection, т.е. данные размечены как коллективные аномалии = размечены начало и конец аномальных периодов)
Про разницу проблем пост и иллюстрация.
Преимущества бенчмарка
Про проблемы существующих бенчмарков и наши преимущества лучше послушать доклад, но коротко перечислю плюсы:
🔘 Разметки для 2х математических проблем
🔘 Относительно большое число точек изменения состояния
🔘 Лидерборд с разработанными методами поиска аномалий для сравнения своих результатов
🔘 Подробное описание (это большая боль у аналогов)
🔘 Адекватные методики и код для оценки (иначе это не бенчмарк, а просто датасеты)
🔘 Поддержка (даже отвечаем на ишьюсы, вмердживаем чужие коммиты и улучшаем продукт)
Ссылки и цитирование
SKAB получилось неплохо описать, поэтому для погружения в детали можете смотреть доклады, читать описание на гитхабе, смотреть слайды и тд. Основные ссылки:
🔘 Видео о бенчмарке на youtube
🔘 Слайды к видео
🔘 Наиболее актуальная информация всегда в репозитории на GitHub
🔘 Также бенчмарк выложен на каггле, там есть EDA и интересные блокноты с решениями. Можно ставить лайки и цитировать (уже 60+ цитирований):
SKAB teaser
Для совсем учебных целей мы дополнительно сделали и описали отдельный датасет с 4мя аномалиями (всего 1 таблица, собранная независимо, но на той же установке), который доступен только на каггле. Для этого датасета есть учебный блокнот с пайплайном разработки алгоритма поиска аномалий на основе автоэнкодера.
SKAB — это лично моя гордость. Получилось собрать действительно неплохой (хотя и не идеальный) бенчмарк, окружить его кодом, алгоритмами оценки и по-тихоньку развивать уже несколько лет.
Я постоянно делюсь наборами данных, пришла пора рассказать про
История создания
Как только в процессе исследований в аспирантуре удалось глубоко погрузиться и опробовать существующие SOTA методы для поиска аномалий, мы начали разрабатывать свои. Тогда мы и столкнулись с недостатком публичных датасетов для проверки и демонстрации качества этих методов. Так как всегда получалось дружить с промышленными компаниями, у нас не было недостатка проприетарных реальных данных с оборудования. Но для научной деятельности и демонстрации результатов все-таки лучше подходят публичные данные, чтобы каждый зашел, убедился в подлинности результатов и сравнил свои методы на том же наборе. А те открытые данные, что есть, чаще всего имеют большие проблемы, и их очень сложно использовать. Это и побудило создать собственный набор данных, который не имел бы распространенных проблем, был открыт для всех исследователей (=опенсорсный) с доступным описанием, метриками, результатами. Вот тогда мы с Вячеславом Козициным и пришли к идее SKAB’а: описали основные требования, сформировали видение экспериментов и приступили к сбору данных на установке в Сколтехе.
Описание и задачи
Бенчмарк состоит из 34 датасетов с коллективными аномалиями (в каждом по 1 аномалии) и 1 датасета с неаномальной эксплуатацией установки. Кроме датасетов, SKAB содержит подробное описание установки, датчиков, данных, EDA, более 10 реализованных алгоритмов поиска аномалий, блокноты с экспериментами, лидерборд с результатами, методики оценки для разных математических проблем, код для оценки и тд. Данные размечены для 2х основных математических проблем в области поиска аномалий:
Про разницу проблем пост и иллюстрация.
Преимущества бенчмарка
Про проблемы существующих бенчмарков и наши преимущества лучше послушать доклад, но коротко перечислю плюсы:
Ссылки и цитирование
SKAB получилось неплохо описать, поэтому для погружения в детали можете смотреть доклады, читать описание на гитхабе, смотреть слайды и тд. Основные ссылки:
Iurii D. Katser, and Vyacheslav O. Kozitsin. (2020). SKAB - Skoltech Anomaly Benchmark [Data set]. Kaggle. https://doi.org/10.34740/KAGGLE/DSV/1693952
SKAB teaser
Для совсем учебных целей мы дополнительно сделали и описали отдельный датасет с 4мя аномалиями (всего 1 таблица, собранная независимо, но на той же установке), который доступен только на каггле. Для этого датасета есть учебный блокнот с пайплайном разработки алгоритма поиска аномалий на основе автоэнкодера.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - waico/SKAB: SKAB - Skoltech Anomaly Benchmark. Time-series data for evaluating Anomaly Detection algorithms.
SKAB - Skoltech Anomaly Benchmark. Time-series data for evaluating Anomaly Detection algorithms. - waico/SKAB
👍26🔥9⚡4💯2❤1🤩1