This media is not supported in your browser
VIEW IN TELEGRAM
🫧Машинное обучение для флотации
Дополню отчет из этого поста кейсами по флотации: все-таки очень популярный кейс, неплохо решаемый с помощью ML и data-based подходами.
DS/ML задач на флотации может быть сразу несколько:
🔘 Оптимизация процесса, включая советчики и автоматическое управление
🔘 CV для выделения параметров пеносъема (детекция и трекинг)
🔘 Прогнозирование технологических показателей, например, качеств концентратов и хвостов (обычно они доступны раз в 10-60 минут, а лабораторные данные 2-3 раза в сутки)
🔘 Корректировка показателей курьеров (РФА-анализаторов)
На самом деле, формулировок задач может быть много. Например, на недавнем хакатоне норникеля были такие: "поиск наиболее эффективных диапазонов управления" или "детектирование загрязнение камер".
Некоторые мысли по задаче оптимального управления флотацией:
🟢 Именно эта задача из перечисленных выше дает наибольший эффект на извлечение (именно это является целью на флотации).
🟢 Эффекты могут достигаться за счет стабилизации и наращивания потоков; поиска оптимального баланса между операциями; более оперативной отработки критических ситуаций; более частого и плавного (постоянное нахождение в оптимальной зоне) управления.
🟢 Для решения задачи необходимо хорошее оснащение фабрики (расходомеры, курьеры, датчики пеносъема), а вот камеры и CV совсем не обязательны (хотя и могут заменить отсутствующие датчики или дать доп эффект)
🟢 Алгоритмы управления флотацией могут быть как в виде советчика, так и в режиме автоматического управления (закрытый контур). Хотя советчик, по моему мнению, работает хуже, а иногда не работает (=не дает эффект) или не приживается совсем.
🟢 Замену флотаторов/операторов сделать сложно, хотя и не невозможно, то есть достичь аптайма в 100% надо постараться (долго и дорого), потому что на флотации большое число нештатных ситуаций.
🟢 Я видел несколько заявлений о достижении эффекта в 2%+ на извлечении в маркетинговых презентациях, но на более-менее современных фабриках это практически недостижимый эффект (хотя посчитать можно по-разному).
Примеры решения задачи, а также мой опыт и опыт коллег:
🔴 Трекинг множества объектов без разметки или как следить за пузырьками во время пенной флотации. Алексей Клоков [habr], [paper]
🔴 Мониторинг на флотации. Скорая оптимизационная помощь. Иван Запорожцев [youtube]
🔴 Машинное обучение для оптимизации флотации. Юрий Кацер [youtube] + бонусом научная статья по нашему решению на еще одной фабрике (пишите в комментах, если нужен файл статьи).
Еще недавно узнал про флотацию и классификацию в нефтянке (очищают техническую воду от примесей).
ПС Планирую в течение пары месяцев написать большой пост про управлению флотацией на хабр, stay tuned.
Дополню отчет из этого поста кейсами по флотации: все-таки очень популярный кейс, неплохо решаемый с помощью ML и data-based подходами.
DS/ML задач на флотации может быть сразу несколько:
На самом деле, формулировок задач может быть много. Например, на недавнем хакатоне норникеля были такие: "поиск наиболее эффективных диапазонов управления" или "детектирование загрязнение камер".
Некоторые мысли по задаче оптимального управления флотацией:
Примеры решения задачи, а также мой опыт и опыт коллег:
Еще недавно узнал про флотацию и классификацию в нефтянке (очищают техническую воду от примесей).
ПС Планирую в течение пары месяцев написать большой пост про управлению флотацией на хабр, stay tuned.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥6👏2❤1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁31💯3👍1🤯1🤮1💩1
Как стать лидом и быть эффективным. Часть 2.1
Часть 1
Делюсь бесценным материалом моего коллеги — Виктора Коренного. Поможет примерить на себя роль тимлида (на проектной деятельности в промышленности), если вы только планируете им стать. Далее исходный текст.
Главная ответственность тим-лида — отвечает за результат проекта, т.е. за эффект.
Что важно для идеального тим-лида:
1️⃣ Фокус на результат. Самое главное — правильная расстановка приоритетов. Всегда хочется позаниматься чем-то простым и приятным, но здесь нужно решать сложные задачи, а именно — искать пути достижения эффекта.
Чтобы решать такие задачи, нужно очень сильно хотеть выиграть. Здесь не сработает никакая другая мотивация. Нужно быть лидером, проявлять инициативу, брать на себя ответственность, не сдаваться и не отступать после первых неудач. В таком деле они неизбежны.
2️⃣ В любое время дня и ночи тим-лид должен иметь ответы на следующие вопросы:
• Дает ли решение эффект?
• За счет чего достигается эффект?
• Какие гипотезы в работе для повышения эффекта?
• Какие гипотезы будут в работе в ближайшие 2 недели для повышения эффекта?
• Что еще можно попробовать?
Тим-лид должен иметь четкое видение образа результата работы логики алгоритма:
• Целевое состояние системы
• Критерии оценки отклонения текущего состояния от целевого
• Недостающие измерения
• Чем их можно компенсировать / чем можно пренебречь
• Работает ли фабрика на это целевое состояние. Если нет, в каких точках. Эти точки (как технологические, так и организационные) и есть потенциальный источник эффекта.
3️⃣ Из всего, описанного выше, заметно, что тим-лид одновременно выполняет множество задач. Соответственно, на написание непосредственно кода у него остается не так много времени, как у менее сеньорных ребят. Но лид должен понимать кодовую базу, уметь ставить задачи и контролировать результат, при необходимости сам писать код.
4️⃣ В организации работы должна быть плотная связка тим-лид — РМ (project manager). Тим-лид должен быть главным заказчиком для РМа в части ресурсов. Например:
• Мне нужно, чтобы все DSы выехали на площадку на месяц и не вылезали оттуда, пока не будет достигнут эффект.
• Мне нужно, чтобы с фабрики нам передали такие-то данные для анализа или отдали нам такое-то управление или чтобы операторы не вмешивались в такие-то управления.
5️⃣ Запрос на ресурсы нужно формулировать от результата: нам не хватает таких-то датчиков / управлений. Сейчас мы из-за этого теряем эффект. Вот примеры: 1, 2, 3. Если эти датчики / управления будут у нас, будет лучше, потому что… 1, 2, 3.
ОБЯЗАТЕЛЬНО: после того, как фабрика выполнит наше пожелание, показать к чему это привело. Сработала ли наша гипотеза. Поблагодарить фабрику.
Вообще любые запросы нужно формировать с конкретными цифрами. Например, если мы хотим, чтобы нам разрешили отклоняться от текущего регламента:
• на сколько максимально мы можем отклониться
• на какой период времени
• по какому критерию можно понять, что это отклонение не оказывает негативного влияния на технологический процесс. Допустимые границы значений этого критерия.
• в какой ситуации оператор может вмешаться, в какой не должен вмешиваться
• какие еще действия требуются от оператора (например, какие регуляторы должны быть в автомате)
• на какой срок проводим эксперимент
• по какому критерию будем мерить эффект от эксперимента
И далее, если эксперимент был удачным, просить поменять регламент.
Продолжение в следующем посте👇
Часть 1
Делюсь бесценным материалом моего коллеги — Виктора Коренного. Поможет примерить на себя роль тимлида (на проектной деятельности в промышленности), если вы только планируете им стать. Далее исходный текст.
Главная ответственность тим-лида — отвечает за результат проекта, т.е. за эффект.
Что важно для идеального тим-лида:
Чтобы решать такие задачи, нужно очень сильно хотеть выиграть. Здесь не сработает никакая другая мотивация. Нужно быть лидером, проявлять инициативу, брать на себя ответственность, не сдаваться и не отступать после первых неудач. В таком деле они неизбежны.
• Дает ли решение эффект?
• За счет чего достигается эффект?
• Какие гипотезы в работе для повышения эффекта?
• Какие гипотезы будут в работе в ближайшие 2 недели для повышения эффекта?
• Что еще можно попробовать?
Тим-лид должен иметь четкое видение образа результата работы логики алгоритма:
• Целевое состояние системы
• Критерии оценки отклонения текущего состояния от целевого
• Недостающие измерения
• Чем их можно компенсировать / чем можно пренебречь
• Работает ли фабрика на это целевое состояние. Если нет, в каких точках. Эти точки (как технологические, так и организационные) и есть потенциальный источник эффекта.
• Мне нужно, чтобы все DSы выехали на площадку на месяц и не вылезали оттуда, пока не будет достигнут эффект.
• Мне нужно, чтобы с фабрики нам передали такие-то данные для анализа или отдали нам такое-то управление или чтобы операторы не вмешивались в такие-то управления.
ОБЯЗАТЕЛЬНО: после того, как фабрика выполнит наше пожелание, показать к чему это привело. Сработала ли наша гипотеза. Поблагодарить фабрику.
Вообще любые запросы нужно формировать с конкретными цифрами. Например, если мы хотим, чтобы нам разрешили отклоняться от текущего регламента:
• на сколько максимально мы можем отклониться
• на какой период времени
• по какому критерию можно понять, что это отклонение не оказывает негативного влияния на технологический процесс. Допустимые границы значений этого критерия.
• в какой ситуации оператор может вмешаться, в какой не должен вмешиваться
• какие еще действия требуются от оператора (например, какие регуляторы должны быть в автомате)
• на какой срок проводим эксперимент
• по какому критерию будем мерить эффект от эксперимента
И далее, если эксперимент был удачным, просить поменять регламент.
Продолжение в следующем посте
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤8🔥4💩1
Как стать лидом и быть эффективным. Часть 2.2
Часть 1, часть 2.1
6️⃣ Очень важно общение с фабрикой. Абсолютна недопустима ситуация, когда на фабрике никто не знает тим-лида.
7️⃣ Лид должен организовать работу так, чтобы во время запусков не было необходимости постоянно мониторить работу решения и вручную вмешиваться в процесс. Для этого необходимо подготовить ряд аналитических инструментов, которые позволяют:
• Отслеживать общие метрики работы решения, направлять уведомления, если они выходят за допустимые границы
• Отслеживать промежуточные метрики работы решения, которые свидетельствуют о том, что в процессе есть проблемы, которые через некоторое время скажутся на показателях. Направлять уведомления, если промежуточные метрики выходят за допустимые границы.
• Определять последствия вмешательства алгоритма. Определять, привело ли вмешательство к ожидаемому эффекту или нет. Аналогично по нашим ручным вмешательствам в процесс.
• Определять необычные ситуации на процессе, при которых действия алгоритма не дают ожидаемого эффекта. Искать, как можно эти ситуации отличить по входящим параметрам.
• Проводить регулярную аналитику по прошедшему запуску, отслеживать, какие были проблемные моменты, когда алгоритм отработал хуже, чем ожидалось.
• Проводить аналитику по вмешательствам операторов. Определять влияние вмешательств на показатели процесса. Автоматически находить моменты, когда управление оператора отличалось от наших правил, при этом дало положительный результат.
• На основании статистики за длительный период определять, какие типичные вмешательства операторов не дают ожидаемого эффекта, чтобы на основании этого сформировать правила по узлам, в которые операторы могут / не могут вмешиваться.
Необходимо обучить команду работе с этими инструментами, поставить эту работу “на поток”, чтобы она проходила без участия лида.
8️⃣ Важно взаимодействие с собственной командой:
• Иметь понимание на старте, сколько людей нужно и с какими компетенциями
• Если по ходу проекта оценка изменилась, делать запросы на новых людей, добиваться того, чтобы их дали, подключать РМа
• Не бояться расставаться с людьми, которые не приносят пользу проекту
• В каждый момент времени понимать, чем занят каждый член команды
• Четко понимать приоритеты, не давать людям уходить в рутинные задачи, когда важные задачи не сделаны
• Понимать сильные и слабые стороны каждого
9️⃣ Также у лида должно быть четкое представление, как он собирается передавать решение на поддержку:
• Как сделать так, чтобы за решением не нужно было постоянно наблюдать и вмешиваться вручную, чтобы не терять эффект
• Какие управления мы передаем оператору, в какие запрещаем оператору вмешиваться, по какому принципу устроено это разделение
• Какие метрики эффекта от решения, как их можно автоматически считать
• Как понять, что повлияло на эти метрики
• Какие действия требуются от команды поддержки, чтобы передать решение на поддержку
❓ Ну как вам? согласны/не согласны?
Часть 1, часть 2.1
• Отслеживать общие метрики работы решения, направлять уведомления, если они выходят за допустимые границы
• Отслеживать промежуточные метрики работы решения, которые свидетельствуют о том, что в процессе есть проблемы, которые через некоторое время скажутся на показателях. Направлять уведомления, если промежуточные метрики выходят за допустимые границы.
• Определять последствия вмешательства алгоритма. Определять, привело ли вмешательство к ожидаемому эффекту или нет. Аналогично по нашим ручным вмешательствам в процесс.
• Определять необычные ситуации на процессе, при которых действия алгоритма не дают ожидаемого эффекта. Искать, как можно эти ситуации отличить по входящим параметрам.
• Проводить регулярную аналитику по прошедшему запуску, отслеживать, какие были проблемные моменты, когда алгоритм отработал хуже, чем ожидалось.
• Проводить аналитику по вмешательствам операторов. Определять влияние вмешательств на показатели процесса. Автоматически находить моменты, когда управление оператора отличалось от наших правил, при этом дало положительный результат.
• На основании статистики за длительный период определять, какие типичные вмешательства операторов не дают ожидаемого эффекта, чтобы на основании этого сформировать правила по узлам, в которые операторы могут / не могут вмешиваться.
Необходимо обучить команду работе с этими инструментами, поставить эту работу “на поток”, чтобы она проходила без участия лида.
• Иметь понимание на старте, сколько людей нужно и с какими компетенциями
• Если по ходу проекта оценка изменилась, делать запросы на новых людей, добиваться того, чтобы их дали, подключать РМа
• Не бояться расставаться с людьми, которые не приносят пользу проекту
• В каждый момент времени понимать, чем занят каждый член команды
• Четко понимать приоритеты, не давать людям уходить в рутинные задачи, когда важные задачи не сделаны
• Понимать сильные и слабые стороны каждого
• Как сделать так, чтобы за решением не нужно было постоянно наблюдать и вмешиваться вручную, чтобы не терять эффект
• Какие управления мы передаем оператору, в какие запрещаем оператору вмешиваться, по какому принципу устроено это разделение
• Какие метрики эффекта от решения, как их можно автоматически считать
• Как понять, что повлияло на эти метрики
• Какие действия требуются от команды поддержки, чтобы передать решение на поддержку
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍9👏2🤝2💩1
Экосистема для разработки и применения Computer Vision (CV) в промышленности
Выпустили с коллегами длиннопост на хабр о том, как мы "варим" (отсылка к процессу флотации) CV в промышленности. Но речь не про CV модели и решение бизнес-задач, а про процесс разработки решений с CV в промышленности, обычно скрытый от глаз. На мой взгляд про это гораздо меньше публичной информации, а зря. Хотя и объяснимо с учетом не самого высокого уровня зрелости ML команд в промышленности.
Запасаюсь попкорном и жду комментарии на хабре🙂
Выпустили с коллегами длиннопост на хабр о том, как мы "варим" (отсылка к процессу флотации) CV в промышленности. Но речь не про CV модели и решение бизнес-задач, а про процесс разработки решений с CV в промышленности, обычно скрытый от глаз. На мой взгляд про это гораздо меньше публичной информации, а зря. Хотя и объяснимо с учетом не самого высокого уровня зрелости ML команд в промышленности.
Запасаюсь попкорном и жду комментарии на хабре
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Экосистема для разработки и применения Computer Vision (CV) в промышленности
Статья написана 2мя авторами: Иваном Мигалем и Юрием Кацером. На сегодняшний день компьютерное зрение (CV — computer vision) активно применяется в промышленности и уже стало привычной технологией для...
👍19❤5🔥4😁1
Отличный перевод отличной статьи про подготовку докладов на конференции. Обязательно к прочтению неопытным спикерам или тем, кто хочет начать выступать.
Мне очень симпатичен подход, описанный в статье, хоть он и отличается от моего. Очень системно, выверенно, фундаментально, осмысленно — все, как я люблю
Что еще отмечу:
• Опыт выступлений неплохо компенсирует подготовку, что неоднократно меня выручало.
• Темы докладов у меня живут в голове по полгода минимум. Да и уже накопился бэклог тем, так что зовите на конференции
• В отличие от автора статьи слайды я осознанно делаю полезными автономно, чтобы и без просмотра видео (иногда недоступного) была польза.
• Даже российские топовые конференции требуют значительный уровень подготовки и проработки доклада. Например, иногда консультируют профессиональные ораторы, проводятся пара прогонов финальной версии доклада, а работа по докладу начинается больше, чем за полгода.
Please open Telegram to view this post
VIEW IN TELEGRAM
Medium
Выступать на конференции
Статья Хинека Шлавака как пошаговая инструкция и дневник профессионального спикера мгновенно захватила моё внимание. О подобных подходах и…
👍13🔥6
🗺Карта инструментов Open Source для ИИ от российских команд
Карта open-source проектов России, дополняющая исследование коллег из ИТМО. Видел первую версию с ≈80 проектами, но недавно обновили, и теперь 128 проектов, включая SKAB✔️
Угадайте, сколько из них про промышленность?2? 😓
А еще в приложении к карте отдельно собрали профили некоторых участников команд на GitHub, HuggingFace, ResearchGate, Habr и других платформах.
Карта | Приложение
Карта open-source проектов России, дополняющая исследование коллег из ИТМО. Видел первую версию с ≈80 проектами, но недавно обновили, и теперь 128 проектов, включая SKAB
Угадайте, сколько из них про промышленность?
А еще в приложении к карте отдельно собрали профили некоторых участников команд на GitHub, HuggingFace, ResearchGate, Habr и других платформах.
Карта | Приложение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥5👏3
This media is not supported in your browser
VIEW IN TELEGRAM
Автоматизация разметки режимов работы флотомашины. Часть 1
Предположим, есть задача разметить (выдать временные интервалы и лейблы) состояния флотомашины, чтобы дальше обучить классификатор. Можно выделить 3 основных состояния:
🔴 льет — вместе с пеной сходит пульпа
🔴 сидит — мало пены, недостаточно активный пеносъем
🔴 норма
Из данных доступны:
🟢 уставки/факт по уровню пульпы во флотомашине, расходу воздуха, некоторые другие сигналы (ток импеллера, открытие дарт-клапанов и тд)
🟢 признаки CV (стандартный набор: количество пузырей, средний размер, скорость и тд)
🟢 исходный видеопоток с возможностью записи видео и периодических картинок
Варианты решений:
1️⃣Первое, что хочется сделать — записать бесконечно долгое видео и отдать на разметку кому-нибудь, чтобы вернули периоды времени и лейблы режимов. Можно будет нарезать и преобразовать исторические данные в таблицу с 3 классами. А дальше — fit-predict.
2️⃣Если мы экономим место на диске, время и деньги на разметке, или нам сложно доставать видео файлы из какого-то закрытого контура, то можно посадить кого-то смотреть на видеопоток в режиме реального времени и точно так же записывать интервалы с лейблами. Дальше нарезаем данные и fit-predict.
3️⃣Попробуем еще сэкономить время и автоматизировать процесс: можно визуально смотреть на важные признаки, говорящие об изменении режима (скорость, количество пузырей, какие-то более сложные детекторы). Вручную нарезать интервалы в соответствии с признаками. Просмотреть видео/фото каждого интервала (на всякий случай) и назначить лейблы. Дальше готовим данные и fit-predict. Правда будет хромать точность разметки у такого метода.
4️⃣А если максимально все автоматизировать и сэкономить?
• Сохраняем не видеофайлы, а картинки или периодические короткие (5 секунд) видео (например, раз в 1-5 минут).
• Для сегментации сигналов давайте брать исходные сигналы (CV или другие параметры) и использовать ruptures для получения интервалов. Чтобы ruptures настроить, можно использовать ground truth разметку из пунктов выше.
• Полученным временным сегментам присваиваем ранее собранные изображения/короткие видео (могут лежать в отдельной папочке с айди интервала).
• Отдаем на разметку, где задача у каждого интервала просматривать файлы в папке (картинки или видео) и назначать класс.
• Если уже есть какой-то классификатор, выдающий вероятность отнесения к классу, то можно сократить кол-во проверяемых интервалов до тех, у которых средняя вероятность ниже порога (или любой другой ваш критерий). Те, в которых уверены, размечаем автоматом.
profit! Есть идеи, как еще докрутить?
Осталось разобраться, какой режим на видео🤔
Предположим, есть задача разметить (выдать временные интервалы и лейблы) состояния флотомашины, чтобы дальше обучить классификатор. Можно выделить 3 основных состояния:
Из данных доступны:
Варианты решений:
1️⃣Первое, что хочется сделать — записать бесконечно долгое видео и отдать на разметку кому-нибудь, чтобы вернули периоды времени и лейблы режимов. Можно будет нарезать и преобразовать исторические данные в таблицу с 3 классами. А дальше — fit-predict.
2️⃣Если мы экономим место на диске, время и деньги на разметке, или нам сложно доставать видео файлы из какого-то закрытого контура, то можно посадить кого-то смотреть на видеопоток в режиме реального времени и точно так же записывать интервалы с лейблами. Дальше нарезаем данные и fit-predict.
3️⃣Попробуем еще сэкономить время и автоматизировать процесс: можно визуально смотреть на важные признаки, говорящие об изменении режима (скорость, количество пузырей, какие-то более сложные детекторы). Вручную нарезать интервалы в соответствии с признаками. Просмотреть видео/фото каждого интервала (на всякий случай) и назначить лейблы. Дальше готовим данные и fit-predict. Правда будет хромать точность разметки у такого метода.
4️⃣А если максимально все автоматизировать и сэкономить?
• Сохраняем не видеофайлы, а картинки или периодические короткие (5 секунд) видео (например, раз в 1-5 минут).
• Для сегментации сигналов давайте брать исходные сигналы (CV или другие параметры) и использовать ruptures для получения интервалов. Чтобы ruptures настроить, можно использовать ground truth разметку из пунктов выше.
• Полученным временным сегментам присваиваем ранее собранные изображения/короткие видео (могут лежать в отдельной папочке с айди интервала).
• Отдаем на разметку, где задача у каждого интервала просматривать файлы в папке (картинки или видео) и назначать класс.
• Если уже есть какой-то классификатор, выдающий вероятность отнесения к классу, то можно сократить кол-во проверяемых интервалов до тех, у которых средняя вероятность ниже порога (или любой другой ваш критерий). Те, в которых уверены, размечаем автоматом.
profit! Есть идеи, как еще докрутить?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥5👀2👏1
Автоматизация разметки режимов работы флотомашины. Часть 2
Дополнение первого поста от Алексея из комментариев и из общения с подписчиками в лс.
О выходных данных из алгоритма
Имелось в виду, что алгоритм выдает класс состояния для каждой временной метки/точки/вектора признаков (поточечные значения класса). Хотя выходом алгоритма может быть и точки изменения состояния, так как из одной постановки задачи в другую несложно перейти.
Об агрегации поточечных значений класса для интервала при выделении интервалов
У нас есть интервал, в котором n точек, у каждой из которых предсказан класс. По интервалу можно и среднее, и моду (для целых значений) брать, чтобы принимать решение, например, нужен ли взгляд разметчика или и так очень сильно уверены. Трешхолд можно тоже подобрать на данных. Да и некачественно нарезанные сегменты (большая дисперсия классов точек) можно будет дропать/доразмечать вручную.
О приемке подобных систем на производстве
Специальные ПСИ на подобный алгоритм разметки состояний может не проводится, если алгоритм, например, является частью системы управления: то есть испытывается вся система в комплексе и смотрится эффект от всего решения. Можно даже проводить A/B/C тест (с использованием этого алгоритма в управлении и без него).
Если предположить, что алгоритм сдается отдельно, то я вижу 2 варианта:
1. Либо как ground truth используется размеченное видео — на сыром прогоняем, получаем свою разметку и сравниваем с ground truth.
2. Либо мы пишем видео в параллель с работой алгоритма и потом смотрим на результаты работы алгоритма, отмечая, судя по видео, что верно, что нет.
Кадры vs Видеофрагменты
По моему опыту, сохранять всего лишь кадры не так хорошо, так как по ним не всегда можно понять состояние, лучше видео.
Дополнения к вариантам решений из 1ой части (продолжаю нумерацию):
5️⃣Предобработка видео с временной компрессией.
Иногда жидкость начинает течь особенно медленно и тогда можно создавать ускоренные видеофрагменты (например, 5x или 10x) для интервалов, чтобы эксперт мог быстрее просматривать длинные периоды времени и определять режимы работы.
6️⃣Внедрить инкрементальное обучение(IL).
По мере накопления размеченных данных постепенно улучшайте модель классификации и используйте её для предсказания меток на новых данных. Эксперт проверяет только те интервалы, где уверенность модели ниже порога.
7️⃣Слияние мультимодальных данных.
Объедините данные с датчиков (температуры, вибрации) и визуальные признаки в единую репрезентацию с помощью методов нейронного слияния (по типу того, что делают в импульсных НС), стекинга или простого сложения эмбеддингов. Это повысит точность автоматической сегментации.
8️⃣Интеграция методов самообучения.
Используйте подходы self-supervised learning для извлечения признаков из неразмеченных данных. Это поможет улучшить качество предобученных представлений, а затем дообучить классификатор с меньшим количеством разметки.
9️⃣Сжатие данных.
Если вы используете трансформеры, то можно поэкспериментировать с извлечением признаков из них уже после обучения. На основе этих данных можно, например, уловить минимальный размер для сжатия данных без просадок в точности классификации.
🔟Про добавление алгоритмов коррекции искажений перед отправкой изображений в модель и внедрение area attention.
Натыкался на статью "Multi-Scale Deformable Transformers for Student Learning Behavior Detection in Smart Classroom".
Там предложили очень интересный подход с Multi-Scale Deformable Transformers, который преодолевает ограничения существующих моделей, такие как проблемы с окклюзией, размытием и различием масштабов объектов в динамичной и сложной среде. Так вот, на основе этого трансформера можно собрать отдельный модуль внимания по типу этого. Итак, используя Area Attention для восстановления изображения, а в другой модели MDAM для сегментации и обнаружения объектов, можно сильно вырасти в качестве точности и повторяемости классификаций/сегментаций/обнаружении объектов.
Дополнение первого поста от Алексея из комментариев и из общения с подписчиками в лс.
О выходных данных из алгоритма
Имелось в виду, что алгоритм выдает класс состояния для каждой временной метки/точки/вектора признаков (поточечные значения класса). Хотя выходом алгоритма может быть и точки изменения состояния, так как из одной постановки задачи в другую несложно перейти.
Об агрегации поточечных значений класса для интервала при выделении интервалов
У нас есть интервал, в котором n точек, у каждой из которых предсказан класс. По интервалу можно и среднее, и моду (для целых значений) брать, чтобы принимать решение, например, нужен ли взгляд разметчика или и так очень сильно уверены. Трешхолд можно тоже подобрать на данных. Да и некачественно нарезанные сегменты (большая дисперсия классов точек) можно будет дропать/доразмечать вручную.
О приемке подобных систем на производстве
Специальные ПСИ на подобный алгоритм разметки состояний может не проводится, если алгоритм, например, является частью системы управления: то есть испытывается вся система в комплексе и смотрится эффект от всего решения. Можно даже проводить A/B/C тест (с использованием этого алгоритма в управлении и без него).
Если предположить, что алгоритм сдается отдельно, то я вижу 2 варианта:
1. Либо как ground truth используется размеченное видео — на сыром прогоняем, получаем свою разметку и сравниваем с ground truth.
2. Либо мы пишем видео в параллель с работой алгоритма и потом смотрим на результаты работы алгоритма, отмечая, судя по видео, что верно, что нет.
Кадры vs Видеофрагменты
По моему опыту, сохранять всего лишь кадры не так хорошо, так как по ним не всегда можно понять состояние, лучше видео.
Дополнения к вариантам решений из 1ой части (продолжаю нумерацию):
5️⃣Предобработка видео с временной компрессией.
Иногда жидкость начинает течь особенно медленно и тогда можно создавать ускоренные видеофрагменты (например, 5x или 10x) для интервалов, чтобы эксперт мог быстрее просматривать длинные периоды времени и определять режимы работы.
6️⃣Внедрить инкрементальное обучение(IL).
По мере накопления размеченных данных постепенно улучшайте модель классификации и используйте её для предсказания меток на новых данных. Эксперт проверяет только те интервалы, где уверенность модели ниже порога.
7️⃣Слияние мультимодальных данных.
Объедините данные с датчиков (температуры, вибрации) и визуальные признаки в единую репрезентацию с помощью методов нейронного слияния (по типу того, что делают в импульсных НС), стекинга или простого сложения эмбеддингов. Это повысит точность автоматической сегментации.
8️⃣Интеграция методов самообучения.
Используйте подходы self-supervised learning для извлечения признаков из неразмеченных данных. Это поможет улучшить качество предобученных представлений, а затем дообучить классификатор с меньшим количеством разметки.
9️⃣Сжатие данных.
Если вы используете трансформеры, то можно поэкспериментировать с извлечением признаков из них уже после обучения. На основе этих данных можно, например, уловить минимальный размер для сжатия данных без просадок в точности классификации.
🔟Про добавление алгоритмов коррекции искажений перед отправкой изображений в модель и внедрение area attention.
Натыкался на статью "Multi-Scale Deformable Transformers for Student Learning Behavior Detection in Smart Classroom".
Там предложили очень интересный подход с Multi-Scale Deformable Transformers, который преодолевает ограничения существующих моделей, такие как проблемы с окклюзией, размытием и различием масштабов объектов в динамичной и сложной среде. Так вот, на основе этого трансформера можно собрать отдельный модуль внимания по типу этого. Итак, используя Area Attention для восстановления изображения, а в другой модели MDAM для сегментации и обнаружения объектов, можно сильно вырасти в качестве точности и повторяемости классификаций/сегментаций/обнаружении объектов.
Telegram
Katser
Автоматизация разметки режимов работы флотомашины
Предположим, есть задача разметить (выдать временные интервалы и лейблы) состояния флотомашины, чтобы дальше обучить классификатор. Можно выделить 3 основных состояния:
🔴льет — вместе с пеной сходит пульпа…
Предположим, есть задача разметить (выдать временные интервалы и лейблы) состояния флотомашины, чтобы дальше обучить классификатор. Можно выделить 3 основных состояния:
🔴льет — вместе с пеной сходит пульпа…
🔥5👍3
Мне было интересно послушать об итогах года в ML in Manufacturing от Димы Подвязникова. 2 года выступаю у Димы в секции на Datafest'е и даже немного помогаю собирать доклады.
Я бы дополнил выступление (далее с ссылками на материалы в канале):
За упоминание RUL в ключевых докладах отдельное спасибо
Наверно, и я много всего забыл — делитесь в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Дмитрий Подвязников | Итоги года в ML in Manufacturing
Спикер: Дмитрий Подвязников
Data Ёлка 2024 в гостях у Ecom.tech: https://ods.ai/events/data-elka-24-ecomtech-offline
Data Ёлка 2024: https://ods.ai/events/data-elka-2024
_____
Наши соц.сети:
Telegram: https://news.1rj.ru/str/datafest
Вконтакте: https://vk.com/datafest…
Data Ёлка 2024 в гостях у Ecom.tech: https://ods.ai/events/data-elka-24-ecomtech-offline
Data Ёлка 2024: https://ods.ai/events/data-elka-2024
_____
Наши соц.сети:
Telegram: https://news.1rj.ru/str/datafest
Вконтакте: https://vk.com/datafest…
🔥6👍3❤1👏1
cnpostercorpsoft2025.pdf
14.4 MB
Программные разработки российских корпораций, 2025
На карте длясебя вас выделил зеленым те разработки, которые относятся к ML прямо или хотя бы имеют часть функционала на основе ML. Прокомментирую материал в контексте ML.
Пишут:
Со второй частью тезиса сложно не согласиться, да и наблюдаю попытки продажи разработок (остающим) конкурентам по отрасли. Но вот недостатков у внутренних разработок полно. Несколько моих комментариев:
🟡 Продуктивизация: если делают проект, то часто не думают, чтобы сделать из этого продукт.
🟡 Поддержка: не умеют DS/ML дочки/команды в поддержку своих продуктов. Да и с доработкой под нового заказчика предполагаю, что может быть сложно.
🟡 Цена провала: если ты вендор/подрядчик, то не внедрение и плохой продукт — конец бизнеса (все сверху до лидов это точно понимают), а для внутренней команды это еще одна невыстрелившая гипотеза. Слегка обострил, но суть, надеюсь, поняли. Это влияет на конечный продукт.
🟡 Оверфиттинг под предприятие/холдинг: разрабатывая продукт, цифровые дочки ориентируются на специфику холдинга, которая может сильно отличаться у конкурентов/партнеров.
🟡 Кастомность разработки: некоторые разработки просто кастомные и максимум, что можно продавать — экспертизу, подходы к решению задачи.
🟡 Немного поворчу, что опять не всех пересчитали, например, на том же comnews писали про продукт цифрума и РАСУ (мб уже нет продукта?).
Ну и последний комментарий:никто ничего мне не занес, а могли бы 🤦♂️
Про причины недостатков такого ПО можно рассуждать и спорить долго, среди важных: отсутствие открытой конкуренции (преференции внутренним командам), проблемы корпоративных процессов (проще и быстрее закупить железо и софт подрядчику, чем встроиться в цикл закупки предприятия). Есть и многие другие.
Ссылка на исходный материал.
На карте для
Пишут:
Коммерциализация такого ПО имеет высокий шанс на успех, поскольку оно лучше учитывает специфику бизнес-процессов и производства компаний отрасли.
Со второй частью тезиса сложно не согласиться, да и наблюдаю попытки продажи разработок (остающим) конкурентам по отрасли. Но вот недостатков у внутренних разработок полно. Несколько моих комментариев:
Ну и последний комментарий:
Про причины недостатков такого ПО можно рассуждать и спорить долго, среди важных: отсутствие открытой конкуренции (преференции внутренним командам), проблемы корпоративных процессов (проще и быстрее закупить железо и софт подрядчику, чем встроиться в цикл закупки предприятия). Есть и многие другие.
Ссылка на исходный материал.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8👏3❤1🔥1🗿1
Гибридное моделирование. Часть 2 — кейсы
В первой части погрузились в подходы, пора закрепить опытом коллег и прокачать насмотренность. К тому же встречаю много скепсиса, иногда оправданного. Поэтому привожу реальные кейсы из своего репозитория. А вы можете как контрибьютить в репозиторий (хотя и просто за🌟 спасибо), так и поделиться другими кейсами к комментариях👇 .
🔵 ГПН (НГУ). Гибридное моделирование глушения скважин в условиях АНПД. Степан Кармушин и Антон Кожухов [tg]
🔵 Еврохим (ЦТиП). Разработка рекомендательной системы для производства аммиака. Александр Верхоломов [youtube]
🔵 Инфосистемы Джет. Помощник сталевара: для чего металлургам нужно машинное обучение? Антон Головко [habr]
🔵 Северсталь. Система управления процессом окомкования железорудных окатышей. Андрей Голов [youtube], [habr]
🔵 ИТМО. Гибридное моделирование океана: совмещаем гидродинамику и машинное обучение. Юлия Борисова [youtube]
ПС Репозиторий, кстати, регулярно обновляю и дополняю, чтобы было удобно пользоваться, но открыт к предложениям по улучшению.
В первой части погрузились в подходы, пора закрепить опытом коллег и прокачать насмотренность. К тому же встречаю много скепсиса, иногда оправданного. Поэтому привожу реальные кейсы из своего репозитория. А вы можете как контрибьютить в репозиторий (хотя и просто за
ПС Репозиторий, кстати, регулярно обновляю и дополняю, чтобы было удобно пользоваться, но открыт к предложениям по улучшению.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Katser
Гибридное моделирование
Как правило, гибридным моделированием называют объединение или ансамблирование подходов физико-математического моделирования (первых принципов) и статистического моделирования/моделирования на данных/машинного обучения. Топ-3 популярных…
Как правило, гибридным моделированием называют объединение или ансамблирование подходов физико-математического моделирования (первых принципов) и статистического моделирования/моделирования на данных/машинного обучения. Топ-3 популярных…
3🔥10👍2
Следим и слушаем "топов": Head of DS'ов, CDS'ов, CDO, директоров инноваций, директоров цифровых дочек холдингов и вендоров решений в промышленности.
Что мне интересно в таких материалах:
Примеры полезных выступлений/презентаций/интервью/подкастов:
Стоит обращать внимание на дату материалов, потому что хоть и медленное, но развитие есть.
Еще мои мысли:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍13❤3💯3👏1👀1
Выступил не так давно на стратегической сессии крупной машиностроительной компании. Ну и как не поделиться с вами материалами с лекционной части (слайды в комментариях
Расскажу более детально о своем докладе:
ПС Если кто-то из спикеров подписан на канал и против публикации материалов — напишите в лс.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍8
Пост с представлением датасета, постановками задач и материалами с кодом здесь. А сегодня поделюсь работой Дмитрия Меняйлова, Junior ML инженера в промышленности, моего студента: Дима подготовил EDA и собственное решение задачи определения RUL. Будет рад конструктивной критике и обратной связи.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤8🔥4👏1
Отзыв на книгу Elon Musk by Ashlee Vance
Уже традиционная рубрика о книгах, которые я читаю
Прочитал, как и обещал, первую биографию Илона Маска. Мое мнение: книга однозначно лучше ревью-статьи, обязательна к прочтению техноэнтузиастам (да и всем), много внутренней кухни SpaceX, Tesla и личной жизни Маска, и просто очень мотивирующая книга. Рекомендую❗️
Выделил для себя по 1-2 топ-цитат из каждой главы, делюсь:
🔘 (глава 1) We wanted flying cars, instead we got 140 characters — слоган инвестиционной компании Питера Тиля. Речь о том, что в нулевые люди как будто перестали хотеть изобретать меняющие жизнь вещи, а инновации и инноваторы/предприниматели обмельчали, создавая твиттеры, вместо ракет и электромобилей. Забавно, что Маск в итоге выкупил твиттер
🔘 (глава 1) It's Elon's world, and the rest of us live in it — слова бывшей жены о всех нас
🔘 (глава 2) "At one point, I ran out of books to read at the school library and the neighborhood library," Musk said. "This is maybe the third or fourth grade. I tried to convince the librarian to order books for me. So then, I started to read the Encyclopaedia Britannica. That was so helpful. You don't know what you don't know…” — о жажде знаний (потом Илон будет читать советские учебники по ракетостроению, потому что почему бы и нет)
🔘 (глава 4) That's Elon. Do or die but don't give up — о том, как неспортивный и растренированный Маск вместе с коллегами поехал в горы на велосипеде, приехал последним, но не сдался
🔘 (глава 5) That's my lesson for taking a vacation: vacations will kill you — цитата Маска после того, как он заболел самой смертоносной версией малярии в редком отпуске на родине в ЮАР и несколько дней пролежал в интенсивной терапии, после чего еще 6 месяцев восстанавливался
🔘 (глава 6) The kiss of death was proving Elon wrong about something — об ужасном отношении Илона к сотрудникам SpaceX и увольнении лучших инженеров
🔘 (глава 7) Don't worry about the methods or if they're unsound. Just get the job done — о методах управления в Тесле, транслируемых Маском всем сотрудникам
🔘 (глава 😍 "Most people who are under that sort of pressure fray," Gracias said. "Their decisions go bad. Elon gets hyperrational. He's still able to make very clear, long-term decisions. The harder it gets, the better he gets…" — друг и инвестор SpaceX и Tesla о том, что пережил Илон в 2008 года (проблемы в личной жизни, недостаток финансирования, плохая пресса, неудачные запуски и почти банкротство обеих компаний + личное банкротство)
🔘 (глава 10) The mantra was that one great engineer will replace three medium ones — такой подход используется с целью делать больше вещей внутри компаний, а не обращаться к подрядчикам, что позволило сэкономить и ускорить разработку продуктов внутри всех компаний Маска
🔘 (глава 11) "... The point is to maximize the probable life span of humanity" — цитата Маска в процессе рассуждений о том, полетит ли он сам на Марс (хочет быть одним из первых, чтобы вдохновить людей, хоть и понимает, что это не самый умный поступок)
🔮 В эпилоге есть интересные прогнозы (книга от 2017 г) на дальнейшие успехи Илона, теслы и SpaceX. Например, о том, когда Илон станет богатейшим человеком, о конкуренции SpaceX с Китаем, о продажах теслы. Думаете сбылись?
Уже традиционная рубрика о книгах, которые я читаю
В комментариях говорят, что даже лучше самой книги (но это я проверю за вас — книга ждёт своего часа на полочке).
Прочитал, как и обещал, первую биографию Илона Маска. Мое мнение: книга однозначно лучше ревью-статьи, обязательна к прочтению техноэнтузиастам (да и всем), много внутренней кухни SpaceX, Tesla и личной жизни Маска, и просто очень мотивирующая книга. Рекомендую
Выделил для себя по 1-2 топ-цитат из каждой главы, делюсь:
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍13⚡3🔥3🌚3🗿3❤1
AI/ML/DS в вибродиагностике. Часть 1 — введение про ящики
🆕 Приветствуем серию постов или временную рубрику про машинное обучение в вибродиагностике. Основным автором рубрики будет Даниил Кечик, ну и я немного буду помогать.
🌀 Лирическое авторское вступление
Подчас кажется, что существуют две практически непересекающиеся вселенные. В первой, как говорили классики, "истина всегда конкретна". Если речь идёт о моделировании механических систем, то речь идет про их точное воссоздание методом конечных элементов. Хочешь перенести свои наработки на новое устройство? Тогда тебе не составит труда собрать новую такую же модель!
Во второй — истина максимально туманна. Она растворена в озёрах данных, и единственный способ хоть как-то к ней приблизиться — сконцентрировать в чёрный ящик (речь о большинстве ML моделей), в который нет никакого способа заглянуть! Вернее, посмотреть-то можно, но понять увиденное...
Попытки пообщаться эти вселенные всё же совершают.
◾️Примеры ML в вибродиагностике и "черные ящики"
Возьмём недавнюю статью, где авторы использовали свёрточную нейросеть для различения дефектов подшипников качения. На вход нейросети подаются коэффициенты вейвлет-преобразования. Они далеко не первые, кто так делают. В работе приведены формулы расчёта "подшипниковых частот", т.е. частот взаимодействия его элементов между собой. Как эти частоты помогут в дальнейшем — не раскрыто. На приведённой скалограмме кратко поясняется, почему вейвлет-преобразование подходит для анализа вибрации подшипников.
Получить достаточно полное представление о состоянии области на сегодняшний день может помочь недавний обзор применяемых подходов к диагностированию по сигналам вибрации. Здесь тоже не предполагается само моделирование физической системы. Связь получаемых после обработки коэффициентов с результатами диагностирования полностью доверяется "чёрному ящику".
◽️"Серые ящики"
Наличие "подшипниковых частот" и пригодных для обработки методов подсказывает, что есть ещё целая область знаний, находящаяся между "чёрными ящиками" и "белыми ящиками" максимально конкретных моделей. И действительно, в деле вибрационной диагностики немало таких наработок, которые конвертируются в диагностические (экспертные) правила. Эти правила работают для разнообразного оборудования, конструкция которого нам известна. И только отсутствие универсальных приборов или программ, которые автоматизируют диагностику любого насоса или газотурбинного двигателя, подсказывает, что чего-то ещё не хватает.
Это всё наводит нас на мысли о необходимости построения моделей "на стыке" областей - машинного обучения, цифровой обработки сигналов, физического моделирования механических систем. Назовём это (по аналогии) "серым ящиком". Такая модель строится на основании всех доступных знаний о моделируемой системе, включая её состав и упрощённое представление её элементов. Эта идея тоже не новая, см. например о data–model fusion подходах. Полагаем, что именно это направление наиболее перспективное для получения новых результатов.
❗️ Послесловие
Мы не обещаем решить глобальные проблемы, стоящие в отрасли, но направляем свои усилия в эту сторону. В следующих публикациях рассмотрим методы, уже применяемые для диагностирования оборудования по сигналам вибрации. После изложим наши соображения и наработки в построении таких "серых ящиков" и наши подходы к моделированию и диагностированию роторного оборудования.
Подчас кажется, что существуют две практически непересекающиеся вселенные. В первой, как говорили классики, "истина всегда конкретна". Если речь идёт о моделировании механических систем, то речь идет про их точное воссоздание методом конечных элементов. Хочешь перенести свои наработки на новое устройство? Тогда тебе не составит труда собрать новую такую же модель!
Во второй — истина максимально туманна. Она растворена в озёрах данных, и единственный способ хоть как-то к ней приблизиться — сконцентрировать в чёрный ящик (речь о большинстве ML моделей), в который нет никакого способа заглянуть! Вернее, посмотреть-то можно, но понять увиденное...
Попытки пообщаться эти вселенные всё же совершают.
◾️Примеры ML в вибродиагностике и "черные ящики"
Возьмём недавнюю статью, где авторы использовали свёрточную нейросеть для различения дефектов подшипников качения. На вход нейросети подаются коэффициенты вейвлет-преобразования. Они далеко не первые, кто так делают. В работе приведены формулы расчёта "подшипниковых частот", т.е. частот взаимодействия его элементов между собой. Как эти частоты помогут в дальнейшем — не раскрыто. На приведённой скалограмме кратко поясняется, почему вейвлет-преобразование подходит для анализа вибрации подшипников.
Получить достаточно полное представление о состоянии области на сегодняшний день может помочь недавний обзор применяемых подходов к диагностированию по сигналам вибрации. Здесь тоже не предполагается само моделирование физической системы. Связь получаемых после обработки коэффициентов с результатами диагностирования полностью доверяется "чёрному ящику".
◽️"Серые ящики"
Наличие "подшипниковых частот" и пригодных для обработки методов подсказывает, что есть ещё целая область знаний, находящаяся между "чёрными ящиками" и "белыми ящиками" максимально конкретных моделей. И действительно, в деле вибрационной диагностики немало таких наработок, которые конвертируются в диагностические (экспертные) правила. Эти правила работают для разнообразного оборудования, конструкция которого нам известна. И только отсутствие универсальных приборов или программ, которые автоматизируют диагностику любого насоса или газотурбинного двигателя, подсказывает, что чего-то ещё не хватает.
Это всё наводит нас на мысли о необходимости построения моделей "на стыке" областей - машинного обучения, цифровой обработки сигналов, физического моделирования механических систем. Назовём это (по аналогии) "серым ящиком". Такая модель строится на основании всех доступных знаний о моделируемой системе, включая её состав и упрощённое представление её элементов. Эта идея тоже не новая, см. например о data–model fusion подходах. Полагаем, что именно это направление наиболее перспективное для получения новых результатов.
Мы не обещаем решить глобальные проблемы, стоящие в отрасли, но направляем свои усилия в эту сторону. В следующих публикациях рассмотрим методы, уже применяемые для диагностирования оборудования по сигналам вибрации. После изложим наши соображения и наработки в построении таких "серых ящиков" и наши подходы к моделированию и диагностированию роторного оборудования.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥7👏4❤1
📹Использование Zero-shot и искусственных данных в проектах по компьютерному зрению
С проблемами в данных, наверно, сталкивался каждый ДС в промышленности, да я об этом буквально постоянно пишу и говорю. Но самая большая проблема — отсутствие данных,потому что тогда мы (ДСы) не нужны 🙂 . При этом отсутствие данных может быть разным: отсутствие разметки, важных признаков, накопленной истории. В технической диагностике частая проблема — отсутствие примеров поломок, то есть разметки. Приходится выкручиваться и придумывать semi-supervised подходы. Но и в задачах компьютерного зрения бывает не хватает прецедентов аномалий/нарушений/пожаров, крч примеров положительного класса. Вот Дима (ex-техлид CV команды еврохима) очень понятно и интересно рассказал про то, как бороться с недостатком данных. Коротко — можно генерить, осталось посмотреть доклад и понять, как технически это делать.
По моему опыту во временных рядах и табличных данных, генерация синтетики не особо хорошо работает. То есть может повысить качество решения задачи, но очень ограниченно. При отсутствии в данных поломок, нагенирировать физически корректные поломки довольно сложно. Аугментация может работать, хотя мб и не так хорошо, как в CV.
Кстати, в докладе еще есть и много информации по инструментам, решающим все типовые задачи в CV, коротко:
• Классификация — CLIP
• Детекция — Grounding DINO, YOLO-world
• Семантическая сегментация — SAM, SAM2, FastSAM, CLIPSeg
• Инстанс-сегментация — Grounded SAM, LangSAM
Но мне понравились рекомендации и подсказки, как стоит собирать пайплайны, например, для инстанс сегментации: Zero-shot детектор➡️ SAM. Все на промышленных примерах 🔥 . Ну и не зря доклад называется "... Zero-shot ...": Дима акцентирует внимание и рассказывает о том, как эффективно проводить PoC в CV на open-source инструментах с предобученными сетками без лишних затрат. А CV в промышленности очень много...
Напоследок дополню еще одним докладом. Похожим, но с описанием немного других подходов и инструментов.
📎 Еще у Димы есть канал на ютубе с очень полезным обучающим контентом (вк версия канала).
С проблемами в данных, наверно, сталкивался каждый ДС в промышленности, да я об этом буквально постоянно пишу и говорю. Но самая большая проблема — отсутствие данных,
По моему опыту во временных рядах и табличных данных, генерация синтетики не особо хорошо работает. То есть может повысить качество решения задачи, но очень ограниченно. При отсутствии в данных поломок, нагенирировать физически корректные поломки довольно сложно. Аугментация может работать, хотя мб и не так хорошо, как в CV.
Кстати, в докладе еще есть и много информации по инструментам, решающим все типовые задачи в CV, коротко:
• Классификация — CLIP
• Детекция — Grounding DINO, YOLO-world
• Семантическая сегментация — SAM, SAM2, FastSAM, CLIPSeg
• Инстанс-сегментация — Grounded SAM, LangSAM
Но мне понравились рекомендации и подсказки, как стоит собирать пайплайны, например, для инстанс сегментации: Zero-shot детектор
Напоследок дополню еще одним докладом. Похожим, но с описанием немного других подходов и инструментов.
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Использование Zero-shot и искусственных данных в проектах по компьютерному зрению / Дм. Колесников
Профессиональная конференция для IT-специалистов реального сектора Industrial++ 2024
Презентация и тезисы:
https://industrialconf.ru/2024/abstracts/12782
Часто бывает, что на производстве получить достаточное количество данных для обучения нейронных сетей…
Презентация и тезисы:
https://industrialconf.ru/2024/abstracts/12782
Часто бывает, что на производстве получить достаточное количество данных для обучения нейронных сетей…
🔥13👍4👏2
Сегодня цикл статей о роли CDO от Reliable ML.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Reliable ML
Советы для CDO - Part #1
Обзор книги Carruthers, Jackson - The Chief Data Officer's Playbook
Прочитала CDO Playbook и хочу поделиться моментами, которые показались интересными.
В целом в книге ну очень высокая доля воды относительно полезной информации…
Обзор книги Carruthers, Jackson - The Chief Data Officer's Playbook
Прочитала CDO Playbook и хочу поделиться моментами, которые показались интересными.
В целом в книге ну очень высокая доля воды относительно полезной информации…
👍4❤3🔥2
Доменная экспертиза для DSов в промышленности
🔵 Одним из требований (или одной из составлящих) профессии датасайентиста является экспертиза в доменной области. В промышленности это требование имеет еще большую важность из-за большой ответственности (промышленные объекты являются опасными или объектами промышленного риска), сложности технологических процессов и пересечения с разными смежными науками (физика, химия, механика и тд). К тому же уровень экспертизы прямо влияет на успешность проекта, писал здесь:
🔵 Погружение в доменную область обычно является частью этапов PoC, пресейла, предпроектного обследования, но продолжается обычно на протяжении всего проекта. Более того не нужно думать, что, узнав процесс на одном производстве, вы теперь знаете все подобные производства. Конечно, физика и химия в обогащении меди или золота не меняется от фабрики к фабрике, но "дьявол кроется в мелочах". Поэтому готовьтесь проходить процесс погружения (пусть и в укороченном виде) на каждом проекте и каждом производстве отдельно. Бесспорно: с опытом становится легче и многие нюансы повторяются.
Как нарабатывать экспертизу?
Оптимальным планом я считаю следующий:
1️⃣Короткое погружение в теорию (2 дня-2 недели):
• Начать с видео на ютубе, типа такого или такого. А вот (часть 1, часть 2) хороший пример простых материалов по процессу с золотом.
• Можно начинать изучение тех регламента, инструкций, схем цепей и механизмов и тд.
• Стоит перерисовать схему производственного процесса в упрощенном и понятном виде, нанося релевантную информацию: точки измерений, узкие места, длительность операций, количество отказов, управляющие воздействия (можно прямо в терминах MV, CV, DV), последовательность операций, движение продукции, потоки. Можно даже потоки данных, но лучше как-то схемы разделять. Пример такой PFD диаграммы на картинке.
2️⃣Практическое знакомство с производством (1-2 недели):
• Экскурсия, вопросы по итогам теоретического погружения
• Инсайты от производственников из "курилки"
• На этом этапе уже важно иметь глоссарий аббревиатур, терминов и жаргонизмов
3️⃣Комплексное глубокое изучение (от 2 недель и до конца проекта):
• Теория процессов и технологии (учебники, статьи, аналитические материалы)
• Практика производства (консультации с производственниками, повторные командировки)
• Анализ данных и референсы (EDA и изучение данных, дозапросы данных и уточнение инсайтов, анализ опыта решения задач коллегами в отрасли из аналитических отчетов, публичных материалов, референс визиты в другие компании и общение с коллегами)
Лучше опыта работы, нахождения на производстве, общения с персоналом ничего нет. Но, чтобы не раздражать персонал глупыми вопросами, базовые теоретические знания стоит получить до общения.
➕ Хорошо дополнит пост слайд "Изучение контекста задачи" с конкретными шагами на старте проекта от Вячеслава Козицина из Еврохима.
Как сохранять экспертизу?
Важно сохранять знания и артефакты в какую-то базу знаний (wiki, confluence). Это важно не только для данного проекта, но и для подобных проектов в будущем. К тому же это важно не только для себя, но и для команды проекта, например, на этапе предпроектного обследования 1 человек погружается и готовит материалы, а на старте проекта уже вся команда погружается, используя подготовленные материалы. Какие артефакты:
• Глоссарий терминов
• (если возможно) Фото и видео оборудования, тех процесса
• Краткое описание и характеристики оборудования, процесса
• Схемы тех процессов в понятном/упрощенном виде с комментариями и актуальными расположениями элементов (они регулярно меняются и могут отличаться от тех инструкций)
• EDA с комментариями, гипотезами и инсайтами
Я пойду дальше и скажу, что умение разбираться в технологическом процессе даже важнее, чем навыки DS. Недавно обсуждали с Head of DS крупной промышленной корпорации, что выше вероятность сделать проект и принести эффект у “технолога с небольшими навыками DS”, чем у “DSа с небольшими знаниями технологии”.
Как нарабатывать экспертизу?
Оптимальным планом я считаю следующий:
1️⃣Короткое погружение в теорию (2 дня-2 недели):
• Начать с видео на ютубе, типа такого или такого. А вот (часть 1, часть 2) хороший пример простых материалов по процессу с золотом.
• Можно начинать изучение тех регламента, инструкций, схем цепей и механизмов и тд.
• Стоит перерисовать схему производственного процесса в упрощенном и понятном виде, нанося релевантную информацию: точки измерений, узкие места, длительность операций, количество отказов, управляющие воздействия (можно прямо в терминах MV, CV, DV), последовательность операций, движение продукции, потоки. Можно даже потоки данных, но лучше как-то схемы разделять. Пример такой PFD диаграммы на картинке.
2️⃣Практическое знакомство с производством (1-2 недели):
• Экскурсия, вопросы по итогам теоретического погружения
• Инсайты от производственников из "курилки"
• На этом этапе уже важно иметь глоссарий аббревиатур, терминов и жаргонизмов
3️⃣Комплексное глубокое изучение (от 2 недель и до конца проекта):
• Теория процессов и технологии (учебники, статьи, аналитические материалы)
• Практика производства (консультации с производственниками, повторные командировки)
• Анализ данных и референсы (EDA и изучение данных, дозапросы данных и уточнение инсайтов, анализ опыта решения задач коллегами в отрасли из аналитических отчетов, публичных материалов, референс визиты в другие компании и общение с коллегами)
Лучше опыта работы, нахождения на производстве, общения с персоналом ничего нет. Но, чтобы не раздражать персонал глупыми вопросами, базовые теоретические знания стоит получить до общения.
Как сохранять экспертизу?
Важно сохранять знания и артефакты в какую-то базу знаний (wiki, confluence). Это важно не только для данного проекта, но и для подобных проектов в будущем. К тому же это важно не только для себя, но и для команды проекта, например, на этапе предпроектного обследования 1 человек погружается и готовит материалы, а на старте проекта уже вся команда погружается, используя подготовленные материалы. Какие артефакты:
• Глоссарий терминов
• (если возможно) Фото и видео оборудования, тех процесса
• Краткое описание и характеристики оборудования, процесса
• Схемы тех процессов в понятном/упрощенном виде с комментариями и актуальными расположениями элементов (они регулярно меняются и могут отличаться от тех инструкций)
• EDA с комментариями, гипотезами и инсайтами
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥9✍3👏1