Katser – Telegram
Katser
2.26K subscribers
93 photos
7 videos
10 files
137 links
Авторский канал @ykatser по data science, машинному обучению и искусственному интеллекту в основном в задачах промышленности, но не только
Download Telegram
Трансформеры для прогнозирования временных рядов. Часть 2

Свежая, не вошедшая в список из предыдущего поста (Часть 1) статья "Are Language Models Actually Useful for Time Series Forecasting?" (текст, репозиторий). Не будет лишним для погружения в тему.

Авторы выделяют следующие моменты:
• Ablation studies: Removing or replacing the LLM components with simpler structures (like basic attention layers) often resulted in improved performance, challenging the assumed superiority of LLMs.
 • Computational costs: The study highlights that LLMs significantly increase computational costs without corresponding improvements in forecasting accuracy. Simpler models reduced training and inference time by up to three orders of magnitude.
 • Performance comparison: In most cases, simpler models outperformed LLM-based methods across eight standard datasets. For instance, ablations (w/o LLM, LLM2Attn, LLM2Trsf) outperformed Time-LLM in 26/26 cases, LLaTA in 22/26 cases, and OneFitsAll in 19/26 cases.
 • Impact of pretraining: Pretraining LLMs on language data did not provide a significant advantage for time series forecasting tasks. Models trained from scratch performed equally well or better.
 • Few-shot learning: LLMs did not perform well in few-shot learning scenarios, indicating that their sequence modeling capabilities from text do not transfer effectively to time series data.


Речь опять о прогнозировании, но авторы отмечают, что надо расширять анализ и на другие задачи на временных рядах, например, классификацию. 🤌
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥10👌5👍3👏2❤‍🔥1
Классификация аномалий и задач в области поиска аномалий

Про классификацию аномалий я часто рассказываю в своих докладах (раз, два). Я также писал пост в канал Reliable ML, где затрагивал эту тему. Пришло время собрать всю информацию по теме в один пост. Я, как обычно, опираюсь на классический обзор, немного его дополняя.

🟡По типу обработки информации (Processing type). Существуют оффлайн и онлайн варианты задачи.
· Оффлайн задача (=сегментация) ставится при наличии полного набора данных, поэтому можно получить оптимальное решение.
· Онлайн ставится, когда данные поступают поточечно (real-time) или батчами, а начало аномалии (точка изменения) должно детектироваться с минимальным запаздыванием.

🟣По типу данных (Data). Один из вариантов классификации — на структурированные, полуструктурированные и неструктурированные (подробнее здесь). Но более полезной кажется классификация по модальности, поскольку методы поиска аномалий для разных модальностей часто существенно различаются.
· Табличные: это данные, структурированные в строки, каждая из которых содержит информацию об отдельном объекте.
· Временной ряд: это одномерные или многомерные данные, наблюдаемые во времени последовательным образом. В идеальных случаях данные наблюдаются через заранее определенные и равные промежутки времени (например, ежегодно или ежечасно).
· Аудио: это особый случай данных временных рядов, где собираемым признаком является звук. Более подробную информацию о том, что такое звук и аудио, можно найти здесь.
· Изображения: это тензор или многомерный массив, где два измерения (строки и столбцы) представляют собой пространственные координаты (оси x и y), а третье представляет интенсивность или уровень серого.
· Видео: обычно это комбинированный тип аудио и временных рядов изображений (каждый экземпляр относится к типу изображения).
· Текст: это либо отдельные слова, либо слова, объединенные в фразы, предложения и тексты.

📎Полезная статья о типах данных с точки зрения машинного обучения.

🔵По наличию разметки данных (Modes by data labels). Можно разделить на с учителем (supervised), с частичным привлечением учителя (semi-supervised) и без учителя (unsupervised).
· Обучения с учителем: требуется, чтобы все данные (как нормального, так и аномального класса) были размечены.
· Обучение с частичным привлечением учителя: обычно речь идет о необходимости иметь часть размеченных данных для каждого класса, но для поиска аномалий чаще всего речь идет о наличии полностью размеченного нормального класса.
· Обучение без учителя: нет разметки ни одного класса. Эти методы часто основаны на предположении, что количество аномальных случаев намного меньше обычных.

🟢Вывод алгоритмов (AD algorithm output). Существует два основных типа вывода результатов алгоритмов:
· Оценка (score) аномальности: алгоритм выдает для каждой точки степень аномальности. Это позволяет гибко определять границу аномальности на этапе постобработки и, например, управлять ошибками 1го и 2го рода.
· Метки классов: алгоритм выводит для каждой точки метку класса (0/1 или нормальный/аномальный).

🔴Тип аномалии (Anomaly type). Часто выделяют точечные, коллективные и контекстуальные аномалии.
· Если одна точка демонстрирует аномальное поведение по отношению к остальным данным, то ее называют точечной аномалией.
· Если набор последовательных точек демонстрирует аномальное поведение по отношению к остальным данным, то этот набор точек называют коллективной аномалией.
· В случае, если аномальность данных заметна только в контексте соседних точек, говорят о контекстуальных аномалиях. К этому типу могут относиться как точечные, так и коллективные аномалии.

🔵Область применения (Application domain). В зависимости от конкретной области знаний или отрасли экономики аномалии можно разделить на различные типы: фрод, кибер-атаки, поломки оборудования и другие. Эти типы относятся к различной природе возникновения аномалий и подразумевают, что следует использовать различные методы поиска аномалий и эвристики предметной области.
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥12👍6❤‍🔥32
📸Визуализация классификации аномалий и характеристик задач в области поиска аномалий
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥6❤‍🔥2👏2
🤩 Платные реакции в телеграм

Павел Дуров под стражей, а значит самое время инвестировать в тг-валюту! На самом деле просто я изучаю новый функционал тг

Возможно, вы уже заметили появление золотых звезд среди обычных реакций на посты в телеграм-каналах. Теперь каждый желающий может приобрести эти звезды и использовать их, чтобы выразить поддержку понравившимся публикациям. Авторы каналов могут отслеживать свои звездные накопления в настройках и использовать их для покупки рекламы в телеграме или конвертации в тг-крипту. Поддержка небольшая, но все равно приятно, и пойдет она в любом случае на развитие канала.

Я подключил платные реакции и уже успел собрать несколько звезд — спасибо вам! ⭐️
Сам планирую поддерживать тех авторов, которые действительно вызывают у меня интерес.
Please open Telegram to view this post
VIEW IN TELEGRAM
27👍12👏5👎3🥰2💩1
This media is not supported in your browser
VIEW IN TELEGRAM
Когда решил привести в порядок промышленные данные: почистить от выбросов, убрать пропуски и тд. 🥲 А серьезные посты на тему качества и обработки промышленных данных были тут и тут.

пс Лучше всего придумываются мемы, конечно, сидя на фабрике и готовясь к защите результатов ОПИ
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁21🤣9👏4💯3😢1
ИИ в промышленности по данным разных аналитических отчетов. Часть 5
Части 1, 2.1, 2.2, 3, 4

Еще один отчет, теперь от Иннополиса. Ключевые моменты на приложенных картинках. Я бы рекомендовал заглянуть в 2 раздела:
🔴Энергетика и ИИ
🔴Промышленность и ИИ

В начале каждого раздела есть интересная информация по ключевым проблемам, трендам отрасли и трендам в направлении ИИ. Сам отчет с упором на патенты, но я большой пользы от патентного ландшафта не вижу, слишком высокая скорость изменений в области ИИ и патенты не раскрывают самые интересные составляющие продуктов — самое интересное всегда под ноу-хау, в опен-сорсе и в научных статьях.

Наверное, какую-то оценку по патентам в технологическом лидерстве делать можно. Напишите, в чем польза в комментах. 🙂

📎Отчет в пдф прикладываю в комментариях.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍72🔥2👏1😐1
⚡️Данные с силовых трансформаторов (поиск аномалий и остаточный ресурс)

Да-да, дождались, новая порция открытых промышленных данных! Датасет для решения сразу 3х задач диагностики:
1️⃣Поиск поломок (можно решать как бинарную классификацию)
2️⃣Выход на диагноз (многоклассовая классификация)
3️⃣Прогноз остаточного ресурса (регрессия)
Первые 2 объединяют в термин Fault Detection and Diagnosis (FDD), последнюю обозначают термином Remaining Useful Life (RUL).

Постановка описанных задач возможна, так как в датасете по сути 2 разметки:
🟡Лейблы с различными типами аномалий (multiclass)
🟣Лейблы с остаточным ресурсом

Набор данных и описание выложены на каггле, можно цитировать:
Iurii Katser. (2024). Power Transformers FDD and RUL [Data set]. Kaggle. https://doi.org/10.34740/KAGGLE/DSV/9296666


Набор данных состоит из 3000 отдельных таблиц, каждая из которых представляет собой характеристику состояния отдельного трансформатора. Таблица содержит 4 колонки-признака, это содержания газов в трансформаторном масле. Таблицы имеют длину 420 строк, каждая из которых является отдельным измерением концентраций с периодом между замерами — 12 часов.

Задачи поиска и классификации аномалий (FDD)
Разметка представляет собой отдельный файл с классами, то есть каждой таблице соответствует 1 лейбл (1 число) класса:
1 — Нормальный режим
2 — Частичный разряд: локальный пробой диэлектрика в газонаполненных полостях;
3 — Низкоэнергетический разряд: искрение или дуговые разряды при плохом контакте элементов конструкции с разным или плавающим потенциалом; разряды между элементами конструкции сердечника ИП, отводами обмотки ВН и баком, обмоткой ВН и заземлением; выделения в масле при переключении контактов;
4 — Низкотемпературный перегрев: нарушение потока масла в каналах охлаждения обмоток, магнитная система, что приводит к низкой эффективности системы охлаждения при температурах < 300 °С.

Данные использовались для решения задачи поиска аномалий в этой статье, писал про это в канале (раз, два, три).

Задача оценки остаточного ресурса (RUL)
Здесь каждой таблице соответствует 1 число — остаточный ресурс трансформатора на момент окончания данных в таблице в виде количества точек.

Очень подробно данные и задача рассмотрены здесь (+ пост в канале).
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍22🔥10👏21
По странному стечению обстоятельств с большим запозданием пишу про интереснейший отчет ИТМО по итогам исследования open-source в России. Ребята давно исследуют тему и сами двигают open-source вперед (например, FEDOT и сообщество @itmo_opensource), писал про это здесь. А я в исследовании участвовал в качестве эксперта (какой open-source, такой и эксперт, хотя может я путаю причину и следствие🤔)
Наш датасет SKAB не рекламировал, но в обзор он все-таки попал, это приятно. Что такое "ядро обнаружения аномалий" я вам не расскажу, так как сам не знаю.😅

Еще недавно давал комментарий к другой статье про open-source (habr, vc), опять жаловался на промышленность. А вообще у автора там серия статей про open-source.

Хотя я не только жалуюсь, но и продолжаю вносить небольшой вклад в open-source в промышленности на кэггле (датасеты) и гитхабе (все остальное).
1👍25🔥8😎4
В одном посте на английском языке собрал основные задачи на временных рядах и библиотеки для автоматизации их решения. При этом слегка обновил опубликованную в канале версию документа.

Кстати, все материалы на английском и часть материалов на русском собираю в линкедине, который на удивление является наиболее эффективным инструментом поиска работы/кадров. Абсолютное большинство предложений о работе в последние пару лет пришло ко мне через линкедин, так что не стоит пренебрегать этой соцсетью. И это я про российский рынок труда 🧐. А еще на линкедине я с удовольствием читаю пару интереснейших блогов про временные ряды и промышленность, так что это теперь для меня еще и источник полезной информации. Может и я начну делать там блог, если телеграм когда-то умрет (ч.1, ч.2 верим?)

PS Добавляйтесь в друзья 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥92
Гибридное моделирование

Как правило, гибридным моделированием называют объединение или ансамблирование подходов физико-математического моделирования (первых принципов) и статистического моделирования/моделирования на данных/машинного обучения. Топ-3 популярных подхода (картинка 1):
🔵 The delta model: например, уточнение физ модели в виде свободного члена (поправки) с помощью ML модели
🟢 Physics-based preprocessing: использование результатов физ-мат моделирования как исходных данных в ML модели
🟡 Feature learning: например, виртуальные датчики, построенные с помощью ML, используются в физ-мат модели

📖 Полезная статья с исторической справкой и объяснением базовых принципов и основных подходов от Bosch AI по ссылке. А для тех, кто хочет гораздо глубже погрузиться в гибридное моделирование подойдет их научная статья.

📖 Ну и напоследок поделюсь статьей про "Обслуживание по состоянию" (CBM) в атомной отрасли. Сам любил ссылаться на статью, так как есть информация по тренду на снижение использование ядерной энергии в мире, потенциальному эффекту от перехода к концепции CBM в США (1 млрд $ в год), обзор основных задач диагностики на АЭС и подходов к диагностике. Ну а нам интереснее SWOT анализ гибридного моделирования (картинка 2) и сравнение с другими подходами.

Мое мнение про гибридное моделирование: в промышленности в большинстве кейсов повышет качество решения задачи, почти всегда работает и повышает доверие к моделям, поэтому стоит пробовать, когда предоставляется возможность.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥4👏31🤡1
Media is too big
VIEW IN TELEGRAM
Гибридное моделирование
глушения скважин в
условиях АНПД


Кейс применения гибридного моделирования в нефтегазовой отрасли. Проект еще не закончен, по окончании поделюсь финальными результатами.

О докладе: в докладе сотрудники ПИШ НГУ и НОЦ Газпром нефть НГУ Степан Кармушин и Антон Кожухов рассказали о результатах, которых им с командой удалось достичь в рамках решения вызова, связанного с повышением эффективности глушения скважин в сложных геолого-технологических условий. Их решение — гибридное моделирование процесса, объединяющее в себе методы машинного обучения с классическими методами физико-математического моделирования. Разработка ведется в интересах индустриального партнера ПИШ НГУ – компании «Газпром нефть».

Пара полезных научных статей по теме в комментариях👇
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥8👏4
ИИ в промышленности по данным разных аналитических отчетов. Часть 6
Части 1, 2.1, 2.2, 3, 4, 5

🗺Карта цифровизации промышленности от TAdviser. Не ИИ, но тоже интересно. Кстати, перекликается с картой из первого поста цикла.

Карта тоже не без недостатков: Рокет Контрол даже пару отраслевых премий выиграла (раз, два), но в списке не появилась. К тому же странно видеть только некоторых заказчиков, занимающихся цифровизацией (Северсталь, дивизионы Росатома), ведь гораздо больше промышленных компаний имеют свои отделы инноваций/цифровизации. А если речь про то, что они продукты на рынок цифровизации делают, то тогда и Гринатома не хватает и НЛМК свою платформу на рынке предлагала.

Хотя в итоге как всегда познавательно!🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥42🤔1
Open-source наработки в промышленности

Одна из мер поддержки опен-сорса в РФ, упомянутая отчете из этого поста, это гранты Код-ИИ. Я и сам участвовал в проекте, получившем такой грант. В этом посте поделюсь парой проектов, получивших грант и относящихся к промышленности.

1️⃣ CVFlow (13 звезд, последний коммит 4 месяца назад) — открытая библиотека CV для промышленности
Github | Youtube

Решает следующие задачи:
🔘Определение положения объектов в пространстве и расстояния между ними
🔘Поиск дефектов и прочих образований на материале
🔘Распознавание номера автомобилей
🔘Распознавание номера вагона поезда
🔘Распознавание QR и штрихкодов
🔘Классификация транспортных средств
🔘Гранулометрия, распознавание размеров однородных объектов
🔘Определения скорости объектов по видеопотоку

Из реально интересных задач: гранулометрия и поиск дефектов на материале.

Из преимуществ: доступны веса предобученных моделей, хотя нет доступных данных.

2️⃣ TSAD — Time Series Analysis for Simulation of Technological Processes (39 звезд, последний коммит 5 месяцев назад) — python библиотека для решения ML задач в промышленности
Github | Youtube

Решает следующие задачи:
🔘Прогнозирование временных рядов
🔘Поиск аномалий
🔘Автоматизированный разведочный анализ данных
🔘Предварительная обработка данных
🔘Визуализация результатов
🔘Оценки качества решения задач, включая специфичные задачи типа changepoint detection

Из преимуществ: неплохая документация, доступны данные, упор на работу с промышленными данными и решение задач PHM (Prognostics and Health Management)

Общий недостаток обеих библиотек: недостаточность функционала и недоработанность кода/подходов. Зато у каждого есть шанс поучаствовать и улучшить библиотеки
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥54
Привет, друзья! 👋

Приглашаю вас на конференцию Industrial++, которая пройдет 21-22 октября в Москве! Уже упоминал, что я член программного комитета и приложил руку к созданию программы и отбору докладов, чтобы сделать это событие максимально полезным и интересным для всех участников. Для меня интересный опыт побывать с другой стороны, не в качестве докладчика. Здесь вас ждут реальные кейсы и проверенные решения, которые помогают компаниям справляться с разными вызовами, включая импортозамещение. 💻

В программе — 56 докладов, панельные дискуссии и выставка с новейшими разработками. Это отличная возможность узнать, как компании внедряют российские и open source решения, и обменяться опытом с коллегами.
А после первого дня нас ждет афтепати! 🎉

Но я не просто так пишу: промокод YKatser даёт 7% скидки на участие онлайн и офлайн — для физлиц и юрлиц. Самое время успеть купить билеты со скидкой!

До встречи на Industrial++!
https://industrialconf.ru/2024/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥7🍾3💩2😨21
Трансформеры для прогнозирования временных рядов. Часть 3
Части 1, 2

Завершу пока цикл постов на тему рекомендацией двух отличных докладов от лидирующих в теме компаний в России (Сбер и Т-банк):
Foundation модели: есть ли жизнь во временных рядах
Forecast and chill: Zero-Shot Foundation Models for Time Series

Есть и погружение в тему, и обзоры решений, и разборы архитектур. Подсвечены, кстати, положительные моменты и условия применения таких моделей.

Без лишних слов отправляю вас смотреть и делать свои выводы.
👍115🔥3
📰Чтиво на выходные: что-то помимо машинного обучения в промышленности

Поделюсь тремя статьями, которые прочитал за последнее время:
🔘How to Give Away a Fortune — статья о том, как девушка решила раздать свое наследство в рамках борьбы с нечестным распределением богатства в Австрии. Собрала даже для этого комитет из людей из разных слоев населения (и потратила на организацию процесса кучу денег). Неоднозначное решение и ее аргументация, равнодушным оставить не должно.
🔘Book Review: Elon Musk — обзор старой биографии от Ashlee Vance. В комментариях говорят, что даже лучше самой книги (но это я проверю за вас — книга ждёт своего часа на полочке). Автор отвечает на свои вопросы цитатами из книги и пытается понять, как Маск добивается успеха, принимая так много плохих решений? Тоже много неоднозначного, но в этом весь Маск.
🔘Can AI Deliver Fully Automated Factories — авторы из BCG настаивают, что несмотря на ряд неудач и пессимизм в создании полностью автономных фабрик, это возможно, и этим нужно заниматься. На примере клиента авторы делятся сложностями и советами, как начать делать подобный процесс. На мой взгляд, слегка поверхностно, мне лично хотелось бы поглубже в технику.

Буду периодически на выходных делиться интересными мне темами вне основных направлений канала. 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥73🤔2🤯1