Katser – Telegram
Katser
2.26K subscribers
93 photos
7 videos
10 files
137 links
Авторский канал @ykatser по data science, машинному обучению и искусственному интеллекту в основном в задачах промышленности, но не только
Download Telegram
Поздравляю всех с Новым годом!

Пора подбить важные статистические показатели для канала:

💪За последний год канал почти сделал x2 по подписчикам

😋Написано 70+ содержательных постов, несмотря на пару периодов засухи из-за высокой занятости

🗣В топе по популярности образовательный контент, а самый популярный пост — моя лекция для студентов НГУ

Всех благодарю за вклад! Stay tuned again
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾22🔥8❤‍🔥6
🔎Где искать датасеты?
В посте раскрою одноименный пункт своего доклада на Datafest'е 2024 "Открытые промышленные данные: зачем нужны, почему так мало и где брать?" и поделюсь конкретными примерами.

В докладе подробно рассказал, зачем нужны открытые датасеты и какие проблемы есть с существующими промышленными данными. А вот подробная инструкция, где и как искать датасеты:

🔘Kaggle. Можно искать в соревнованиях, можно искать в разделе "Datasets" по ключевым словам, категориям и тд. Подходят и другие площадки для соревнований, типа drivendata.org.

🔘Специализированные сайты под исследования с ML, типа https://paperswithcode.com и https://huggingface.co/. Хотя промышленных данных я там не встречал, но вот датасетов с временными рядами там немало.

🔘Научные статьи/секции на конференциях/сайты научных групп и институтов. Примеры:
· Сайт группы
· Репозиторий института
· Обзорная статья про поиск аномалий в сетевом трафике
· Статья с последнего NIPS'а
· Сайт проекта timeseriesclassification.com

🔘Обзорные Github репозитории. Вот сразу 4 репозитория с датасетами в промышленности или около:
· Awesome Public Industrial Datasets
· Awesome TS anomaly detection
· Industrial ML Datasets
· Public industrial datasets and benchmarks
А еще я создал на гитхабе на основе своих лайков отдельную папку с датасетами.

🔘datasetsearch.research.google. Специализированный поисковый ресурс, выступает как агрегатор.

🔘Хакатоны. Неоднократно от коллег слышал, что на хакатоны ходят для получения новых или особенно интересных/уникальных данных (да я и сам так делал).

🔘Соревнования на конференциях. Все мы знаем соревнования от AIJourney или NIPS. Редко бывает по теме промышленности, но вот, например, ежегодное соревнование от phm сообщества в рамках конференции. Уже лет 10 проводят соревнования и публикуют данные.

🔘Работа в промышленности. Самый легкий и эффективный способ. Но не факт, что получится использовать внутренние данные компании где-то на стороне, хотя для дипломов/диссертаций/статьей использовать обычно можно.

🔘Блоги, сайты, гитхаб компаний-лидеров, авторов из отрасли:
· Вот пример с датасетами от блогера в нефтегазе.
· Еще один пример — большое число датасетов от компании NASA.
· Да и мой блог — тоже неплохой пример🙂.

Конечно, я как всегда буду рад вашим рекомендациям — добавлю в подборку.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥82💯1
ИИ в промышленности по данным разных аналитических отчетов. Часть 8
Части 1, 2.1, 2.2, 3, 4, 5, 6, 7

На картинке обновленная карта (доступна по ссылке) компаний из 1го поста серии.

Продолжает удивлять критерии выбора для карты компаний, работающих в ИИ.
🔴я думал, что ИТ/digital дочки не учитываются, но S7 ТехЛаб есть, тогда северсталь диджитал, сибур диджитал, ЦТиП, Цифрум и другие стоит добавить
🔴в области ИИ остается Mechanica.ai (я нашел ее даже в 2х категориях), которая пару лет уже не функционирует, зато нет белки диджитал
🔴как я вижу, компании между "областями" повторяются, что логично, тогда много компаний можно из соседних областей добавить в промышленность: rubbles, redmadrobot и др.
🔴зато добавили Конандрум, которая с этого года сменила бренд на Рокет контрол. Если разработчики карты меня читают (не случайно же конандрум добавили после моих жалоб в прошый раз) - пишите, помогу с промышленными компаниями
🔴я бы еще добавил ВУЗы, хотя не совсем понятно, как это делать, они как правило не фокусируются на каком-то направлении, добавлять в каждую категорию?

В дополнение рекомендую проглядеть недавно вышедший аналитический сборник №13 альманаха ИИ, хоть отчет и за/по 2023 год. Файл в комментариях 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12👏31🔥1💩1
13 разгневанных лидеров: честно о командах и технологиях

Я неоднократно говорил о важности расширения кругозора как в промышленности/DS, так и в ИТ технологиях в целом. Поэтому делюсь папкой с классными авторскими каналами экспертов IT: https://news.1rj.ru/str/addlist/pAgKOs7Te-w5MDgy

Здесь 13 человек, которые строят технологии, руководят командами, двигают бизнесы, и интересно об этом рассказывают.

В составе: CTO, разработчики, DS, продакты, стартаперы и люди, которые знают, как сделать так, чтобы все эти красивые слова работали.

И всё это — в одной папке. 😮Спасибо Паше Дурову Телеграму за возможность создать себе правильное окружение одним кликом.

Подписывайтесь и добро пожаловать в клуб!
Please open Telegram to view this post
VIEW IN TELEGRAM
3👎8👍7🤣4👏3🔥2🤮21
Мой отзыв на книгу «Переговоры с монстрами» И. Рызова

tldr: неоднозначно, если есть лишние деньги - купить и прочитать можно, читается быстро, но не "мастхэв".

Кстати, книгу прочитал по совету из книги «Мама, я тимлид! ... », но пока читал, несколько раз удивился, как такое можно рекомендовать. В конце чтения я видно дошел до стадии принятия, поэтому мнение сгладил.

Мои мысли: цель книги по заявлению автора – научить перестать бояться «монстров» на переговорах ("монстры не так страшны" и "монстры рождаются в нашей голове"), но лично мне были гораздо полезнее прикладные советы, что делать в каких ситуациях и как распознавать поведение людей в переговорах. На примерах из книги очень хорошо узнаются и вспоминаются ситуации из жизни. Однозначно соглашусь, что вся наша жизнь состоит из переговоров и живем мы в соответствии с тем, как умеем их вести.

Из минусов: местами читается сложно, встречаются орфографические ошибки и теряется смысл посреди предложений или абзацев текста. Раза 3 не мог понять смысл написанного даже после того, как перечитал пару раз. Надеюсь, что это болячки первого издания, и после пары переизданий станет лучше. Цельность текста тоже не всегда прослеживается, как будто книга собрана из набора отдельных статей. Глобальный смысл понять не мешает, но читать местами больно.

Итого для себя: в ближайшем будущем прочитаю еще раз, выделю для себя тезисно полезные моменты и вероятно забуду про существование книги.
👍74🔥3
📹Сегментация грязи на камерах

Задача актуальная на производствах из-за пыли, капель от техпроцесса или даже от мытья/обработки оборудования цеха. Загрязнение влияет на качество моделей машинного обучения и может ухудшать управление производственным процессом. Чтобы решать проблемы, на камерах могут ставить стеклоочистители или умыватели, но наиболее простым способом является ручная протирка камер. Для запуска процесса очистки и нужны "детекторы грязи".🧹

Делюсь полезным материалом для начинающих специалистов с решением задачи для флотации на основе сегментации и Unet.

Добавлю, что задача может решаться и как детекция. А наиболее простым, но вычислительно эффективным способом (часто вылезают ограничения на вычислительные мощности) решения является сборка "детектора грязи" на основе фичей из основной модели, типа трекинга пузырьков.

Я и сам недавно участвовал в решении такой задачи на реальном производстве. Возможно, по итогам выйдет интересная научная статья.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥4👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🫧Машинное обучение для флотации

Дополню отчет из этого поста кейсами по флотации: все-таки очень популярный кейс, неплохо решаемый с помощью ML и data-based подходами.

DS/ML задач на флотации может быть сразу несколько:
🔘Оптимизация процесса, включая советчики и автоматическое управление
🔘CV для выделения параметров пеносъема (детекция и трекинг)
🔘Прогнозирование технологических показателей, например, качеств концентратов и хвостов (обычно они доступны раз в 10-60 минут, а лабораторные данные 2-3 раза в сутки)
🔘Корректировка показателей курьеров (РФА-анализаторов)
На самом деле, формулировок задач может быть много. Например, на недавнем хакатоне норникеля были такие: "поиск наиболее эффективных диапазонов управления" или "детектирование загрязнение камер".

Некоторые мысли по задаче оптимального управления флотацией:
🟢Именно эта задача из перечисленных выше дает наибольший эффект на извлечение (именно это является целью на флотации).
🟢Эффекты могут достигаться за счет стабилизации и наращивания потоков; поиска оптимального баланса между операциями; более оперативной отработки критических ситуаций; более частого и плавного (постоянное нахождение в оптимальной зоне) управления.
🟢Для решения задачи необходимо хорошее оснащение фабрики (расходомеры, курьеры, датчики пеносъема), а вот камеры и CV совсем не обязательны (хотя и могут заменить отсутствующие датчики или дать доп эффект)
🟢Алгоритмы управления флотацией могут быть как в виде советчика, так и в режиме автоматического управления (закрытый контур). Хотя советчик, по моему мнению, работает хуже, а иногда не работает (=не дает эффект) или не приживается совсем.
🟢Замену флотаторов/операторов сделать сложно, хотя и не невозможно, то есть достичь аптайма в 100% надо постараться (долго и дорого), потому что на флотации большое число нештатных ситуаций.
🟢Я видел несколько заявлений о достижении эффекта в 2%+ на извлечении в маркетинговых презентациях, но на более-менее современных фабриках это практически недостижимый эффект (хотя посчитать можно по-разному).

Примеры решения задачи, а также мой опыт и опыт коллег:
🔴Трекинг множества объектов без разметки или как следить за пузырьками во время пенной флотации. Алексей Клоков [habr], [paper]
🔴Мониторинг на флотации. Скорая оптимизационная помощь. Иван Запорожцев [youtube]
🔴Машинное обучение для оптимизации флотации. Юрий Кацер [youtube] + бонусом научная статья по нашему решению на еще одной фабрике (пишите в комментах, если нужен файл статьи).

Еще недавно узнал про флотацию и классификацию в нефтянке (очищают техническую воду от примесей).

ПС Планирую в течение пары месяцев написать большой пост про управлению флотацией на хабр, stay tuned.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥6👏21
📊 Когда 8 лет занимаешься временными рядами...

Позаимствовано у Jakub Figura из linkedin
Please open Telegram to view this post
VIEW IN TELEGRAM
😁31💯3👍1🤯1🤮1💩1
Как стать лидом и быть эффективным. Часть 2.1
Часть 1

Делюсь бесценным материалом моего коллеги — Виктора Коренного. Поможет примерить на себя роль тимлида (на проектной деятельности в промышленности), если вы только планируете им стать. Далее исходный текст.

Главная ответственность тим-лида — отвечает за результат проекта, т.е. за эффект.

Что важно для идеального тим-лида:
1️⃣Фокус на результат. Самое главное — правильная расстановка приоритетов. Всегда хочется позаниматься чем-то простым и приятным, но здесь нужно решать сложные задачи, а именно — искать пути достижения эффекта.

Чтобы решать такие задачи, нужно очень сильно хотеть выиграть. Здесь не сработает никакая другая мотивация. Нужно быть лидером, проявлять инициативу, брать на себя ответственность, не сдаваться и не отступать после первых неудач. В таком деле они неизбежны.

2️⃣В любое время дня и ночи тим-лид должен иметь ответы на следующие вопросы:
• Дает ли решение эффект?
• За счет чего достигается эффект?
• Какие гипотезы в работе для повышения эффекта?
• Какие гипотезы будут в работе в ближайшие 2 недели для повышения эффекта?
• Что еще можно попробовать?

Тим-лид должен иметь четкое видение образа результата работы логики алгоритма:
• Целевое состояние системы
• Критерии оценки отклонения текущего состояния от целевого
• Недостающие измерения
• Чем их можно компенсировать / чем можно пренебречь
• Работает ли фабрика на это целевое состояние. Если нет, в каких точках. Эти точки (как технологические, так и организационные) и есть потенциальный источник эффекта.

3️⃣Из всего, описанного выше, заметно, что тим-лид одновременно выполняет множество задач. Соответственно, на написание непосредственно кода у него остается не так много времени, как у менее сеньорных ребят. Но лид должен понимать кодовую базу, уметь ставить задачи и контролировать результат, при необходимости сам писать код.

4️⃣В организации работы должна быть плотная связка тим-лид — РМ (project manager). Тим-лид должен быть главным заказчиком для РМа в части ресурсов. Например:
• Мне нужно, чтобы все DSы выехали на площадку на месяц и не вылезали оттуда, пока не будет достигнут эффект.
• Мне нужно, чтобы с фабрики нам передали такие-то данные для анализа или отдали нам такое-то управление или чтобы операторы не вмешивались в такие-то управления.

5️⃣Запрос на ресурсы нужно формулировать от результата: нам не хватает таких-то датчиков / управлений. Сейчас мы из-за этого теряем эффект. Вот примеры: 1, 2, 3. Если эти датчики / управления будут у нас, будет лучше, потому что… 1, 2, 3.

ОБЯЗАТЕЛЬНО: после того, как фабрика выполнит наше пожелание, показать к чему это привело. Сработала ли наша гипотеза. Поблагодарить фабрику.

Вообще любые запросы нужно формировать с конкретными цифрами. Например, если мы хотим, чтобы нам разрешили отклоняться от текущего регламента:
• на сколько максимально мы можем отклониться
• на какой период времени
• по какому критерию можно понять, что это отклонение не оказывает негативного влияния на технологический процесс. Допустимые границы значений этого критерия.
• в какой ситуации оператор может вмешаться, в какой не должен вмешиваться
• какие еще действия требуются от оператора (например, какие регуляторы должны быть в автомате)
• на какой срок проводим эксперимент
• по какому критерию будем мерить эффект от эксперимента
И далее, если эксперимент был удачным, просить поменять регламент.

Продолжение в следующем посте👇
Please open Telegram to view this post
VIEW IN TELEGRAM
👍148🔥4💩1
Как стать лидом и быть эффективным. Часть 2.2
Часть 1, часть 2.1

6️⃣Очень важно общение с фабрикой. Абсолютна недопустима ситуация, когда на фабрике никто не знает тим-лида.

7️⃣Лид должен организовать работу так, чтобы во время запусков не было необходимости постоянно мониторить работу решения и вручную вмешиваться в процесс. Для этого необходимо подготовить ряд аналитических инструментов, которые позволяют:
• Отслеживать общие метрики работы решения, направлять уведомления, если они выходят за допустимые границы
• Отслеживать промежуточные метрики работы решения, которые свидетельствуют о том, что в процессе есть проблемы, которые через некоторое время скажутся на показателях. Направлять уведомления, если промежуточные метрики выходят за допустимые границы.
• Определять последствия вмешательства алгоритма. Определять, привело ли вмешательство к ожидаемому эффекту или нет. Аналогично по нашим ручным вмешательствам в процесс.
• Определять необычные ситуации на процессе, при которых действия алгоритма не дают ожидаемого эффекта. Искать, как можно эти ситуации отличить по входящим параметрам.
• Проводить регулярную аналитику по прошедшему запуску, отслеживать, какие были проблемные моменты, когда алгоритм отработал хуже, чем ожидалось.
• Проводить аналитику по вмешательствам операторов. Определять влияние вмешательств на показатели процесса. Автоматически находить моменты, когда управление оператора отличалось от наших правил, при этом дало положительный результат.
• На основании статистики за длительный период определять, какие типичные вмешательства операторов не дают ожидаемого эффекта, чтобы на основании этого сформировать правила по узлам, в которые операторы могут / не могут вмешиваться.

Необходимо обучить команду работе с этими инструментами, поставить эту работу “на поток”, чтобы она проходила без участия лида.

8️⃣Важно взаимодействие с собственной командой:
• Иметь понимание на старте, сколько людей нужно и с какими компетенциями
• Если по ходу проекта оценка изменилась, делать запросы на новых людей, добиваться того, чтобы их дали, подключать РМа
• Не бояться расставаться с людьми, которые не приносят пользу проекту
• В каждый момент времени понимать, чем занят каждый член команды
• Четко понимать приоритеты, не давать людям уходить в рутинные задачи, когда важные задачи не сделаны
• Понимать сильные и слабые стороны каждого

9️⃣Также у лида должно быть четкое представление, как он собирается передавать решение на поддержку:
• Как сделать так, чтобы за решением не нужно было постоянно наблюдать и вмешиваться вручную, чтобы не терять эффект
• Какие управления мы передаем оператору, в какие запрещаем оператору вмешиваться, по какому принципу устроено это разделение
• Какие метрики эффекта от решения, как их можно автоматически считать
• Как понять, что повлияло на эти метрики
• Какие действия требуются от команды поддержки, чтобы передать решение на поддержку

Ну как вам? согласны/не согласны?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍9👏2🤝2💩1
Экосистема для разработки и применения Computer Vision (CV) в промышленности

Выпустили с коллегами длиннопост на хабр о том, как мы "варим" (отсылка к процессу флотации) CV в промышленности. Но речь не про CV модели и решение бизнес-задач, а про процесс разработки решений с CV в промышленности, обычно скрытый от глаз. На мой взгляд про это гораздо меньше публичной информации, а зря. Хотя и объяснимо с учетом не самого высокого уровня зрелости ML команд в промышленности.

Запасаюсь попкорном и жду комментарии на хабре🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
👍195🔥4😁1
🗣Туториал: как готовиться и выступать на конференции

Отличный перевод отличной статьи про подготовку докладов на конференции. Обязательно к прочтению неопытным спикерам или тем, кто хочет начать выступать.

Мне очень симпатичен подход, описанный в статье, хоть он и отличается от моего. Очень системно, выверенно, фундаментально, осмысленно — все, как я люблю, но не делаю. У меня так получается только с лонгридами на хабр. Например, несколько раз было такое, что до выступления остается 20 минут, а я доделываю слайды, после чего обещаю себе, что в следующий раз...🤤 Радует, что со временем я стал готовиться лучше и больше, но все равно недостаточно.

Что еще отмечу:
• Опыт выступлений неплохо компенсирует подготовку, что неоднократно меня выручало.
• Темы докладов у меня живут в голове по полгода минимум. Да и уже накопился бэклог тем, так что зовите на конференции
• В отличие от автора статьи слайды я осознанно делаю полезными автономно, чтобы и без просмотра видео (иногда недоступного) была польза.
• Даже российские топовые конференции требуют значительный уровень подготовки и проработки доклада. Например, иногда консультируют профессиональные ораторы, проводятся пара прогонов финальной версии доклада, а работа по докладу начинается больше, чем за полгода.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥6
🗺Карта инструментов Open Source для ИИ от российских команд

Карта open-source проектов России, дополняющая исследование коллег из ИТМО. Видел первую версию с ≈80 проектами, но недавно обновили, и теперь 128 проектов, включая SKAB✔️
Угадайте, сколько из них про промышленность? 2?😓

А еще в приложении к карте отдельно собрали профили некоторых участников команд на GitHub, HuggingFace, ResearchGate, Habr и других платформах.

Карта | Приложение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥5👏3
This media is not supported in your browser
VIEW IN TELEGRAM
Автоматизация разметки режимов работы флотомашины. Часть 1

Предположим, есть задача разметить (выдать временные интервалы и лейблы) состояния флотомашины, чтобы дальше обучить классификатор. Можно выделить 3 основных состояния:
🔴льет — вместе с пеной сходит пульпа
🔴сидит — мало пены, недостаточно активный пеносъем
🔴норма

Из данных доступны:
🟢уставки/факт по уровню пульпы во флотомашине, расходу воздуха, некоторые другие сигналы (ток импеллера, открытие дарт-клапанов и тд)
🟢признаки CV (стандартный набор: количество пузырей, средний размер, скорость и тд)
🟢исходный видеопоток с возможностью записи видео и периодических картинок

Варианты решений:
1️⃣Первое, что хочется сделать — записать бесконечно долгое видео и отдать на разметку кому-нибудь, чтобы вернули периоды времени и лейблы режимов. Можно будет нарезать и преобразовать исторические данные в таблицу с 3 классами. А дальше — fit-predict.

2️⃣Если мы экономим место на диске, время и деньги на разметке, или нам сложно доставать видео файлы из какого-то закрытого контура, то можно посадить кого-то смотреть на видеопоток в режиме реального времени и точно так же записывать интервалы с лейблами. Дальше нарезаем данные и fit-predict.

3️⃣Попробуем еще сэкономить время и автоматизировать процесс: можно визуально смотреть на важные признаки, говорящие об изменении режима (скорость, количество пузырей, какие-то более сложные детекторы). Вручную нарезать интервалы в соответствии с признаками. Просмотреть видео/фото каждого интервала (на всякий случай) и назначить лейблы. Дальше готовим данные и fit-predict. Правда будет хромать точность разметки у такого метода.

4️⃣А если максимально все автоматизировать и сэкономить?
• Сохраняем не видеофайлы, а картинки или периодические короткие (5 секунд) видео (например, раз в 1-5 минут).
• Для сегментации сигналов давайте брать исходные сигналы (CV или другие параметры) и использовать ruptures для получения интервалов. Чтобы ruptures настроить, можно использовать ground truth разметку из пунктов выше.
• Полученным временным сегментам присваиваем ранее собранные изображения/короткие видео (могут лежать в отдельной папочке с айди интервала).
• Отдаем на разметку, где задача у каждого интервала просматривать файлы в папке (картинки или видео) и назначать класс.
• Если уже есть какой-то классификатор, выдающий вероятность отнесения к классу, то можно сократить кол-во проверяемых интервалов до тех, у которых средняя вероятность ниже порога (или любой другой ваш критерий). Те, в которых уверены, размечаем автоматом.

profit! Есть идеи, как еще докрутить?

Осталось разобраться, какой режим на видео🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥5👀2👏1
Автоматизация разметки режимов работы флотомашины. Часть 2

Дополнение первого поста от Алексея из комментариев и из общения с подписчиками в лс.

О выходных данных из алгоритма
Имелось в виду, что алгоритм выдает класс состояния для каждой временной метки/точки/вектора признаков (поточечные значения класса). Хотя выходом алгоритма может быть и точки изменения состояния, так как из одной постановки задачи в другую несложно перейти.

Об агрегации поточечных значений класса для интервала при выделении интервалов
У нас есть интервал, в котором n точек, у каждой из которых предсказан класс. По интервалу можно и среднее, и моду (для целых значений) брать, чтобы принимать решение, например, нужен ли взгляд разметчика или и так очень сильно уверены. Трешхолд можно тоже подобрать на данных. Да и некачественно нарезанные сегменты (большая дисперсия классов точек) можно будет дропать/доразмечать вручную.

О приемке подобных систем на производстве
Специальные ПСИ на подобный алгоритм разметки состояний может не проводится, если алгоритм, например, является частью системы управления: то есть испытывается вся система в комплексе и смотрится эффект от всего решения. Можно даже проводить A/B/C тест (с использованием этого алгоритма в управлении и без него).

Если предположить, что алгоритм сдается отдельно, то я вижу 2 варианта:
1. Либо как ground truth используется размеченное видео на сыром прогоняем, получаем свою разметку и сравниваем с ground truth.
2. Либо мы пишем видео в параллель с работой алгоритма и потом смотрим на результаты работы алгоритма, отмечая, судя по видео, что верно, что нет.

Кадры vs Видеофрагменты
По моему опыту, сохранять всего лишь кадры не так хорошо, так как по ним не всегда можно понять состояние, лучше видео.

Дополнения к вариантам решений из 1ой части (продолжаю нумерацию):

5️⃣Предобработка видео с временной компрессией.
Иногда жидкость начинает течь особенно медленно и тогда можно создавать ускоренные видеофрагменты (например, 5x или 10x) для интервалов, чтобы эксперт мог быстрее просматривать длинные периоды времени и определять режимы работы.

6️⃣Внедрить инкрементальное обучение(IL).
По мере накопления размеченных данных постепенно улучшайте модель классификации и используйте её для предсказания меток на новых данных. Эксперт проверяет только те интервалы, где уверенность модели ниже порога.

7️⃣Слияние мультимодальных данных.
Объедините данные с датчиков (температуры, вибрации) и визуальные признаки в единую репрезентацию с помощью методов нейронного слияния (по типу того, что делают в импульсных НС), стекинга или простого сложения эмбеддингов. Это повысит точность автоматической сегментации.

8️⃣Интеграция методов самообучения.
Используйте подходы self-supervised learning для извлечения признаков из неразмеченных данных. Это поможет улучшить качество предобученных представлений, а затем дообучить классификатор с меньшим количеством разметки.

9️⃣Сжатие данных.
Если вы используете трансформеры, то можно поэкспериментировать с извлечением признаков из них уже после обучения. На основе этих данных можно, например, уловить минимальный размер для сжатия данных без просадок в точности классификации.

🔟Про добавление алгоритмов коррекции искажений перед отправкой изображений в модель и внедрение area attention.
Натыкался на статью "Multi-Scale Deformable Transformers for Student Learning Behavior Detection in Smart Classroom".
Там предложили очень интересный подход с Multi-Scale Deformable Transformers, который преодолевает ограничения существующих моделей, такие как проблемы с окклюзией, размытием и различием масштабов объектов в динамичной и сложной среде. Так вот, на основе этого трансформера можно собрать отдельный модуль внимания по типу этого. Итак, используя Area Attention для восстановления изображения, а в другой модели MDAM для сегментации и обнаружения объектов, можно сильно вырасти в качестве точности и повторяемости классификаций/сегментаций/обнаружении объектов.
🔥5👍3
🎉Итоги 2024 года в ML in Manufacturing от ODS

Мне было интересно послушать об итогах года в ML in Manufacturing от Димы Подвязникова. 2 года выступаю у Димы в секции на Datafest'е и даже немного помогаю собирать доклады.

Я бы дополнил выступление (далее с ссылками на материалы в канале):
🔵open-source'ом (раз, два, три)
🔵другими конференциями, включая материалы и доклады с них (раз, два, три)
🔵хотя бы ссылками на аналитические отчеты по теме (мой 8ой пост серии, остальные доступны по ссылкам внутри). Там и больше трендов можно рассмотреть, о которых в докладе упоминалось
🔵мелочами, типа ежегодного соревнования от phm society; кстати, тренд на то, чтобы делиться данными не встречал и тд

За упоминание RUL в ключевых докладах отдельное спасибо😇

Наверно, и я много всего забыл — делитесь в комментариях👇
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍31👏1
cnpostercorpsoft2025.pdf
14.4 MB
Программные разработки российских корпораций, 2025

На карте для себя вас выделил зеленым те разработки, которые относятся к ML прямо или хотя бы имеют часть функционала на основе ML. Прокомментирую материал в контексте ML.

Пишут:
Коммерциализация такого ПО имеет высокий шанс на успех, поскольку оно лучше учитывает специфику бизнес-процессов и производства компаний отрасли.

Со второй частью тезиса сложно не согласиться, да и наблюдаю попытки продажи разработок (остающим) конкурентам по отрасли. Но вот недостатков у внутренних разработок полно. Несколько моих комментариев:
🟡Продуктивизация: если делают проект, то часто не думают, чтобы сделать из этого продукт.
🟡Поддержка: не умеют DS/ML дочки/команды в поддержку своих продуктов. Да и с доработкой под нового заказчика предполагаю, что может быть сложно.
🟡Цена провала: если ты вендор/подрядчик, то не внедрение и плохой продукт конец бизнеса (все сверху до лидов это точно понимают), а для внутренней команды это еще одна невыстрелившая гипотеза. Слегка обострил, но суть, надеюсь, поняли. Это влияет на конечный продукт.
🟡Оверфиттинг под предприятие/холдинг: разрабатывая продукт, цифровые дочки ориентируются на специфику холдинга, которая может сильно отличаться у конкурентов/партнеров.
🟡Кастомность разработки: некоторые разработки просто кастомные и максимум, что можно продавать экспертизу, подходы к решению задачи.
🟡Немного поворчу, что опять не всех пересчитали, например, на том же comnews писали про продукт цифрума и РАСУ (мб уже нет продукта?).

Ну и последний комментарий: никто ничего мне не занес, а могли бы🤦‍♂️

Про причины недостатков такого ПО можно рассуждать и спорить долго, среди важных: отсутствие открытой конкуренции (преференции внутренним командам), проблемы корпоративных процессов (проще и быстрее закупить железо и софт подрядчику, чем встроиться в цикл закупки предприятия). Есть и многие другие.

Ссылка на исходный материал.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8👏31🔥1🗿1
Гибридное моделирование. Часть 2 — кейсы

В первой части погрузились в подходы, пора закрепить опытом коллег и прокачать насмотренность. К тому же встречаю много скепсиса, иногда оправданного. Поэтому привожу реальные кейсы из своего репозитория. А вы можете как контрибьютить в репозиторий (хотя и просто за 🌟 спасибо), так и поделиться другими кейсами к комментариях👇.

🔵ГПН (НГУ). Гибридное моделирование глушения скважин в условиях АНПД. Степан Кармушин и Антон Кожухов [tg]

🔵Еврохим (ЦТиП). Разработка рекомендательной системы для производства аммиака. Александр Верхоломов [youtube]

🔵Инфосистемы Джет. Помощник сталевара: для чего металлургам нужно машинное обучение? Антон Головко [habr]

🔵Северсталь. Система управления процессом окомкования железорудных окатышей. Андрей Голов [youtube], [habr]

🔵ИТМО. Гибридное моделирование океана: совмещаем гидродинамику и машинное обучение. Юлия Борисова [youtube]

ПС Репозиторий, кстати, регулярно обновляю и дополняю, чтобы было удобно пользоваться, но открыт к предложениям по улучшению.
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥10👍2
🔝Концентрированный опыт внедрения DS/ML/AI в промышленных компаниях
Следим и слушаем "топов": Head of DS'ов, CDS'ов, CDO, директоров инноваций, директоров цифровых дочек холдингов и вендоров решений в промышленности.

Что мне интересно в таких материалах:
🟢Кейсы, включая постановки задач, DS метрики и экономические показатели/KPI всего DS направления
🟢Технические инсайты
🟢Фреймворки управления DS проектами
🟢Архитектуры отдельных решений и платформ
🟢Стратегии цифровизации и внедрения ИИ, путь компаний
🟢Актуальные тренды и технологии
🟢Софт скиллы, майндсет и опыт на разных позициях
🟢Барьеры и набитые шишки в процессе внедрения ИИ и инноваций

Примеры полезных выступлений/презентаций/интервью/подкастов:
🔴НЛМК. Искусственный Интеллект в металлургии. Анджей Аршавский [link]
🔴ММК. Опыт ММК. Интервью с Данилой Целикановым [link]
🔴Mechanica AI. Искусственный интеллект в металлургии. Александр Хайтин [link]
🔴РУСАЛ. Где можно и где нельзя без ML в промышленности. Михаил Граденко [link]
🔴Еврохим. Как устроена разработка ML-продуктов для производства ЕвроХима. Вячеслав Козицин [link]
🔴Сибур. Цифровая трансформация в СИБУРе. Василий Номоконов [link]
🔴Норникель. Искусственный интеллект в "Норникель" / Про фреймворки для управления проектами на миллиарды. Алексей Тестин [link]
🔴Норникель. Цифровые двойники оператора на производстве на примере компании из цветной металлургии. Антон Абраров [link]
🔴Северсталь. Как AI помогает зарабатывать миллионы одному из крупнейших заводов в стране. Светлана Потапова [link]
Стоит обращать внимание на дату материалов, потому что хоть и медленное, но развитие есть.

Еще мои мысли:
🔘Да, уровень материала разный: от МЛ моделей до управления цифровизацией, иногда слишком верхнеуровнево, иногда слишком конкретно, но я все это считаю полезным.
🔘Можно следить за компаниями, можно следить за личностями, так как многие руководители перемещаются (иногда не по своей воле) между компаниями и тиражируют свой опыт (как удачный, так и не очень).
🔘Знакомясь с материалами и зная внутрянку отраслей/компаний, понятно, что где-то преукрашено, где-то недосказано, но даже так материалы бесценны. Кстати, знание внутрянки и более реального состояния дел дает дополнительные инсайты о том, что работает, а что нет. Другими словами от "не повторяйте" до "а вот это надо слушать очень внимательно".
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍133💯3👏1👀1
🔝Материалы со стратегической сессии по внедрению ML в машиностроение
Выступил не так давно на стратегической сессии крупной машиностроительной компании. Ну и как не поделиться с вами материалами с лекционной части (слайды в комментариях👇). Специально никого не пиарю.

Расскажу более детально о своем докладе:
🔵Главной целью ставил "приземлить" ожидания и поделиться опытом реальных проектов, поэтому презентация во многом состоит из проблем и их решений. Отсюда еще и следует прописная истина, что начинать лучше с более простых проектов, но лучше формулировать как "с низковисящих плодов" или "с быстрых побед". К таким плодам относятся и заинтересованный заказчик, и достаточность ресурсов, и невысокая сложность проекта. Это обеспечит приживаемость технологий у всех, включая топ менеджмент, владельцев бизнеса и инвесторов. В конце концов для них ML — еще одно мероприятие по повышению эффективности бизнеса.
🔵Важным считаю насмотренность кейсов, поэтому большая часть презентации посвящена задачам, формулировкам, статистике популярности (высокая корреляция с успешностью) кейсов. В конце есть и ссылки на на библиотеки кейсов для бизнесовых людей (аналитические отчеты) и технических специалистов (мой репозиторий на гитхабе).
🔵Впервые интегрировал в свою презентацию информацию из этого отчета. Интегрировалось очень удачно.
🔵Информацию собирал в течение нескольких лет, но хорошо записанного доклада нет, надо будет сделать, пойдет дополнением к предыдущему посту про концентрированный опыт. Кстати, версия презентации урезанная.
🔵Материал, как и мой опыт, смещены на стадию производства (грубо говоря, есть еще проектирование, сбыт и обслуживание).
🔵ML в промышленности — реальность, уже не до "тестов", пора догонять лидеров и внедрять, несмотря на боль и большое количество барьеров и проблем. Кстати, опыт можно набирать через людей, прошедших цифровизацию в других компаниях, а не стараться пройти самостоятельно.
🔵Мне интересно наблюдать за приходом в промышленность LLM и агентов. Но общаясь с коллегами из промышленных корпораций, приходим к выводам, что с внедрениями и эффектами есть проблемы. Технология привлекательная, но пока не более того. Хотя на масштабе эффекты есть: сокращение трудозатрат тысяч инженеров или юристов даже на 15 минут в день уже ощутим в деньгах. Хотя хайп LLM точно бустит общий интерес к цифровым технологиям и классическому ML.

*️⃣Не первый раз присутствую и выступаю на стратегических сессиях, опыт всегда интересный. Фасилитировать практические части сессий (с генерацией гипотез и брейнштормами для задач компании) я не готов, но выступить с докладом не против. Кстати, отлично практическую часть вел Александр Хайтин, я участвовал разок. Лекционную часть даже могу собрать из знакомых и коллег для вашей компании — пишите.🤦‍♂️

ПС Если кто-то из спикеров подписан на канал и против публикации материалов — напишите в лс.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍8
⚡️Разведочный анализ данных и остаточный ресурс силовых трансформаторов

Пост с представлением датасета, постановками задач и материалами с кодом здесь. А сегодня поделюсь работой Дмитрия Меняйлова, Junior ML инженера в промышленности, моего студента: Дима подготовил EDA и собственное решение задачи определения RUL. Будет рад конструктивной критике и обратной связи.

🟡Наконец-то у датасета появился свой EDA с довольно подробным описанием и анализом данных.
🟡Много методов ML попробовано для задачи RUL в отдельном блокноте. Тут и автомл (pycaret), и optuna для подбора оптимальных гиперпараметров, и вся база (бустинги, леса). И даже сравнение с моими результатами из хабровской статьи (ищите в оригинальном посте)
🟡Отмечу, что получился отличный пет-проект для начинающего специалиста. Буду советовать студентам в качестве примера.

📎А в комментариях файл, где работа оформлена в виде отчета, ну вдруг кому-то будет полезно.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍128🔥4👏1