Поздравляю всех с Новым годом!✨ ✨ ✨
Пора подбить важные статистические показатели для канала:
💪 За последний год канал почти сделал x2 по подписчикам
😋 Написано 70+ содержательных постов, несмотря на пару периодов засухи из-за высокой занятости
🗣 В топе по популярности образовательный контент, а самый популярный пост — моя лекция для студентов НГУ
Всех благодарю за вклад! Stay tuned again
Пора подбить важные статистические показатели для канала:
Всех благодарю за вклад! Stay tuned again
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾22🔥8❤🔥6
В посте раскрою одноименный пункт своего доклада на Datafest'е 2024 "Открытые промышленные данные: зачем нужны, почему так мало и где брать?" и поделюсь конкретными примерами.
В докладе подробно рассказал, зачем нужны открытые датасеты и какие проблемы есть с существующими промышленными данными. А вот подробная инструкция, где и как искать датасеты:
· Сайт группы
· Репозиторий института
· Обзорная статья про поиск аномалий в сетевом трафике
· Статья с последнего NIPS'а
· Сайт проекта timeseriesclassification.com
· Awesome Public Industrial Datasets
· Awesome TS anomaly detection
· Industrial ML Datasets
· Public industrial datasets and benchmarks
А еще я создал на гитхабе на основе своих лайков отдельную папку с датасетами.
· Вот пример с датасетами от блогера в нефтегазе.
· Еще один пример — большое число датасетов от компании NASA.
· Да и мой блог — тоже неплохой пример
Конечно, я как всегда буду рад вашим рекомендациям — добавлю в подборку.
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Юрий Кацер | Открытые промышленные данные: зачем нужны, почему так мало и где брать?
Спикер: Юрий Кацер, Рокет Контрол, DS team lead, эксперт по анализу данных и машинному обучению в задачах промышленности, автор тг-канала @datakatser
Полезные ссылки:
https://github.com/YKatser/Industrial-ML
Data Fest 2024: https://ods.ai/events/datafest2024…
Полезные ссылки:
https://github.com/YKatser/Industrial-ML
Data Fest 2024: https://ods.ai/events/datafest2024…
👍15🔥8❤2💯1
ИИ в промышленности по данным разных аналитических отчетов. Часть 8
Части 1, 2.1, 2.2, 3, 4, 5, 6, 7
На картинке обновленная карта (доступна по ссылке) компаний из 1го поста серии.
Продолжает удивлять критерии выбора для карты компаний, работающих в ИИ.
🔴 я думал, что ИТ/digital дочки не учитываются, но S7 ТехЛаб есть, тогда северсталь диджитал, сибур диджитал, ЦТиП, Цифрум и другие стоит добавить
🔴 в области ИИ остается Mechanica.ai (я нашел ее даже в 2х категориях), которая пару лет уже не функционирует, зато нет белки диджитал
🔴 как я вижу, компании между "областями" повторяются, что логично, тогда много компаний можно из соседних областей добавить в промышленность: rubbles, redmadrobot и др.
🔴 зато добавили Конандрум, которая с этого года сменила бренд на Рокет контрол. Если разработчики карты меня читают (не случайно же конандрум добавили после моих жалоб в прошый раз) - пишите, помогу с промышленными компаниями
🔴 я бы еще добавил ВУЗы, хотя не совсем понятно, как это делать, они как правило не фокусируются на каком-то направлении, добавлять в каждую категорию?
В дополнение рекомендую проглядеть недавно вышедший аналитический сборник №13 альманаха ИИ, хоть отчет и за/по 2023 год. Файл в комментариях👇
Части 1, 2.1, 2.2, 3, 4, 5, 6, 7
На картинке обновленная карта (доступна по ссылке) компаний из 1го поста серии.
Продолжает удивлять критерии выбора для карты компаний, работающих в ИИ.
В дополнение рекомендую проглядеть недавно вышедший аналитический сборник №13 альманаха ИИ, хоть отчет и за/по 2023 год. Файл в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12👏3❤1🔥1💩1
13 разгневанных лидеров: честно о командах и технологиях
Я неоднократно говорил о важности расширения кругозора как в промышленности/DS, так и в ИТ технологиях в целом. Поэтому делюсь папкой с классными авторскими каналами экспертов IT: https://news.1rj.ru/str/addlist/pAgKOs7Te-w5MDgy
Здесь 13 человек, которые строят технологии, руководят командами, двигают бизнесы, и интересно об этом рассказывают.
В составе: CTO, разработчики, DS, продакты, стартаперы и люди, которые знают, как сделать так, чтобы все эти красивые слова работали.
И всё это — в одной папке.😮 Спасибо Паше Дурову Телеграму за возможность создать себе правильное окружение одним кликом.
Подписывайтесь и добро пожаловать в клуб!
Я неоднократно говорил о важности расширения кругозора как в промышленности/DS, так и в ИТ технологиях в целом. Поэтому делюсь папкой с классными авторскими каналами экспертов IT: https://news.1rj.ru/str/addlist/pAgKOs7Te-w5MDgy
Здесь 13 человек, которые строят технологии, руководят командами, двигают бизнесы, и интересно об этом рассказывают.
В составе: CTO, разработчики, DS, продакты, стартаперы и люди, которые знают, как сделать так, чтобы все эти красивые слова работали.
И всё это — в одной папке.
Подписывайтесь и добро пожаловать в клуб!
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Честно об IT
Ekaterina Altbregina invites you to add the folder “Честно об IT”, which includes 13 chats.
3👎8👍7🤣4👏3🔥2🤮2❤1
Мой отзыв на книгу «Переговоры с монстрами» И. Рызова
tldr: неоднозначно, если есть лишние деньги - купить и прочитать можно, читается быстро, но не "мастхэв".
Кстати, книгу прочитал по совету из книги «Мама, я тимлид! ... », но пока читал, несколько раз удивился, как такое можно рекомендовать. В конце чтения я видно дошел до стадии принятия, поэтому мнение сгладил.
Мои мысли: цель книги по заявлению автора – научить перестать бояться «монстров» на переговорах ("монстры не так страшны" и "монстры рождаются в нашей голове"), но лично мне были гораздо полезнее прикладные советы, что делать в каких ситуациях и как распознавать поведение людей в переговорах. На примерах из книги очень хорошо узнаются и вспоминаются ситуации из жизни. Однозначно соглашусь, что вся наша жизнь состоит из переговоров и живем мы в соответствии с тем, как умеем их вести.
Из минусов: местами читается сложно, встречаются орфографические ошибки и теряется смысл посреди предложений или абзацев текста. Раза 3 не мог понять смысл написанного даже после того, как перечитал пару раз. Надеюсь, что это болячки первого издания, и после пары переизданий станет лучше. Цельность текста тоже не всегда прослеживается, как будто книга собрана из набора отдельных статей. Глобальный смысл понять не мешает, но читать местами больно.
Итого для себя: в ближайшем будущем прочитаю еще раз, выделю для себя тезисно полезные моменты и вероятно забуду про существование книги.
tldr: неоднозначно, если есть лишние деньги - купить и прочитать можно, читается быстро, но не "мастхэв".
Кстати, книгу прочитал по совету из книги «Мама, я тимлид! ... », но пока читал, несколько раз удивился, как такое можно рекомендовать. В конце чтения я видно дошел до стадии принятия, поэтому мнение сгладил.
Мои мысли: цель книги по заявлению автора – научить перестать бояться «монстров» на переговорах ("монстры не так страшны" и "монстры рождаются в нашей голове"), но лично мне были гораздо полезнее прикладные советы, что делать в каких ситуациях и как распознавать поведение людей в переговорах. На примерах из книги очень хорошо узнаются и вспоминаются ситуации из жизни. Однозначно соглашусь, что вся наша жизнь состоит из переговоров и живем мы в соответствии с тем, как умеем их вести.
Из минусов: местами читается сложно, встречаются орфографические ошибки и теряется смысл посреди предложений или абзацев текста. Раза 3 не мог понять смысл написанного даже после того, как перечитал пару раз. Надеюсь, что это болячки первого издания, и после пары переизданий станет лучше. Цельность текста тоже не всегда прослеживается, как будто книга собрана из набора отдельных статей. Глобальный смысл понять не мешает, но читать местами больно.
Итого для себя: в ближайшем будущем прочитаю еще раз, выделю для себя тезисно полезные моменты и вероятно забуду про существование книги.
Telegram
Katser
📚Пока я нахожусь в процессе написания нескольких технических постов, делюсь с вами списком полезных книг на интересные и важные темы: тайм-менеджмент, личная эффективность, саморазвитие.
💪«Канбан Метод. Улучшение системы управления» — Майк Барроуз;
О Канбан…
💪«Канбан Метод. Улучшение системы управления» — Майк Барроуз;
О Канбан…
👍7❤4🔥3
Задача актуальная на производствах из-за пыли, капель от техпроцесса или даже от мытья/обработки оборудования цеха. Загрязнение влияет на качество моделей машинного обучения и может ухудшать управление производственным процессом. Чтобы решать проблемы, на камерах могут ставить стеклоочистители или умыватели, но наиболее простым способом является ручная протирка камер. Для запуска процесса очистки и нужны "детекторы грязи".
Делюсь полезным материалом для начинающих специалистов с решением задачи для флотации на основе сегментации и Unet.
Добавлю, что задача может решаться и как детекция. А наиболее простым, но вычислительно эффективным способом (часто вылезают ограничения на вычислительные мощности) решения является сборка "детектора грязи" на основе фичей из основной модели, типа трекинга пузырьков.
Я и сам недавно участвовал в решении такой задачи на реальном производстве. Возможно, по итогам выйдет интересная научная статья.
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Сегментация изображений с дефектами для промышленности на основе Unet и TensorFlow
Введение Недавно я и моя команда участвовали в хакатоне от компании «Норникель». Мы выбрали трек «Грязные дела», где наша задача заключалась в разработке алгоритма компьютерного зрения для решения...
👍16🔥4👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🫧Машинное обучение для флотации
Дополню отчет из этого поста кейсами по флотации: все-таки очень популярный кейс, неплохо решаемый с помощью ML и data-based подходами.
DS/ML задач на флотации может быть сразу несколько:
🔘 Оптимизация процесса, включая советчики и автоматическое управление
🔘 CV для выделения параметров пеносъема (детекция и трекинг)
🔘 Прогнозирование технологических показателей, например, качеств концентратов и хвостов (обычно они доступны раз в 10-60 минут, а лабораторные данные 2-3 раза в сутки)
🔘 Корректировка показателей курьеров (РФА-анализаторов)
На самом деле, формулировок задач может быть много. Например, на недавнем хакатоне норникеля были такие: "поиск наиболее эффективных диапазонов управления" или "детектирование загрязнение камер".
Некоторые мысли по задаче оптимального управления флотацией:
🟢 Именно эта задача из перечисленных выше дает наибольший эффект на извлечение (именно это является целью на флотации).
🟢 Эффекты могут достигаться за счет стабилизации и наращивания потоков; поиска оптимального баланса между операциями; более оперативной отработки критических ситуаций; более частого и плавного (постоянное нахождение в оптимальной зоне) управления.
🟢 Для решения задачи необходимо хорошее оснащение фабрики (расходомеры, курьеры, датчики пеносъема), а вот камеры и CV совсем не обязательны (хотя и могут заменить отсутствующие датчики или дать доп эффект)
🟢 Алгоритмы управления флотацией могут быть как в виде советчика, так и в режиме автоматического управления (закрытый контур). Хотя советчик, по моему мнению, работает хуже, а иногда не работает (=не дает эффект) или не приживается совсем.
🟢 Замену флотаторов/операторов сделать сложно, хотя и не невозможно, то есть достичь аптайма в 100% надо постараться (долго и дорого), потому что на флотации большое число нештатных ситуаций.
🟢 Я видел несколько заявлений о достижении эффекта в 2%+ на извлечении в маркетинговых презентациях, но на более-менее современных фабриках это практически недостижимый эффект (хотя посчитать можно по-разному).
Примеры решения задачи, а также мой опыт и опыт коллег:
🔴 Трекинг множества объектов без разметки или как следить за пузырьками во время пенной флотации. Алексей Клоков [habr], [paper]
🔴 Мониторинг на флотации. Скорая оптимизационная помощь. Иван Запорожцев [youtube]
🔴 Машинное обучение для оптимизации флотации. Юрий Кацер [youtube] + бонусом научная статья по нашему решению на еще одной фабрике (пишите в комментах, если нужен файл статьи).
Еще недавно узнал про флотацию и классификацию в нефтянке (очищают техническую воду от примесей).
ПС Планирую в течение пары месяцев написать большой пост про управлению флотацией на хабр, stay tuned.
Дополню отчет из этого поста кейсами по флотации: все-таки очень популярный кейс, неплохо решаемый с помощью ML и data-based подходами.
DS/ML задач на флотации может быть сразу несколько:
На самом деле, формулировок задач может быть много. Например, на недавнем хакатоне норникеля были такие: "поиск наиболее эффективных диапазонов управления" или "детектирование загрязнение камер".
Некоторые мысли по задаче оптимального управления флотацией:
Примеры решения задачи, а также мой опыт и опыт коллег:
Еще недавно узнал про флотацию и классификацию в нефтянке (очищают техническую воду от примесей).
ПС Планирую в течение пары месяцев написать большой пост про управлению флотацией на хабр, stay tuned.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥6👏2❤1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁31💯3👍1🤯1🤮1💩1
Как стать лидом и быть эффективным. Часть 2.1
Часть 1
Делюсь бесценным материалом моего коллеги — Виктора Коренного. Поможет примерить на себя роль тимлида (на проектной деятельности в промышленности), если вы только планируете им стать. Далее исходный текст.
Главная ответственность тим-лида — отвечает за результат проекта, т.е. за эффект.
Что важно для идеального тим-лида:
1️⃣ Фокус на результат. Самое главное — правильная расстановка приоритетов. Всегда хочется позаниматься чем-то простым и приятным, но здесь нужно решать сложные задачи, а именно — искать пути достижения эффекта.
Чтобы решать такие задачи, нужно очень сильно хотеть выиграть. Здесь не сработает никакая другая мотивация. Нужно быть лидером, проявлять инициативу, брать на себя ответственность, не сдаваться и не отступать после первых неудач. В таком деле они неизбежны.
2️⃣ В любое время дня и ночи тим-лид должен иметь ответы на следующие вопросы:
• Дает ли решение эффект?
• За счет чего достигается эффект?
• Какие гипотезы в работе для повышения эффекта?
• Какие гипотезы будут в работе в ближайшие 2 недели для повышения эффекта?
• Что еще можно попробовать?
Тим-лид должен иметь четкое видение образа результата работы логики алгоритма:
• Целевое состояние системы
• Критерии оценки отклонения текущего состояния от целевого
• Недостающие измерения
• Чем их можно компенсировать / чем можно пренебречь
• Работает ли фабрика на это целевое состояние. Если нет, в каких точках. Эти точки (как технологические, так и организационные) и есть потенциальный источник эффекта.
3️⃣ Из всего, описанного выше, заметно, что тим-лид одновременно выполняет множество задач. Соответственно, на написание непосредственно кода у него остается не так много времени, как у менее сеньорных ребят. Но лид должен понимать кодовую базу, уметь ставить задачи и контролировать результат, при необходимости сам писать код.
4️⃣ В организации работы должна быть плотная связка тим-лид — РМ (project manager). Тим-лид должен быть главным заказчиком для РМа в части ресурсов. Например:
• Мне нужно, чтобы все DSы выехали на площадку на месяц и не вылезали оттуда, пока не будет достигнут эффект.
• Мне нужно, чтобы с фабрики нам передали такие-то данные для анализа или отдали нам такое-то управление или чтобы операторы не вмешивались в такие-то управления.
5️⃣ Запрос на ресурсы нужно формулировать от результата: нам не хватает таких-то датчиков / управлений. Сейчас мы из-за этого теряем эффект. Вот примеры: 1, 2, 3. Если эти датчики / управления будут у нас, будет лучше, потому что… 1, 2, 3.
ОБЯЗАТЕЛЬНО: после того, как фабрика выполнит наше пожелание, показать к чему это привело. Сработала ли наша гипотеза. Поблагодарить фабрику.
Вообще любые запросы нужно формировать с конкретными цифрами. Например, если мы хотим, чтобы нам разрешили отклоняться от текущего регламента:
• на сколько максимально мы можем отклониться
• на какой период времени
• по какому критерию можно понять, что это отклонение не оказывает негативного влияния на технологический процесс. Допустимые границы значений этого критерия.
• в какой ситуации оператор может вмешаться, в какой не должен вмешиваться
• какие еще действия требуются от оператора (например, какие регуляторы должны быть в автомате)
• на какой срок проводим эксперимент
• по какому критерию будем мерить эффект от эксперимента
И далее, если эксперимент был удачным, просить поменять регламент.
Продолжение в следующем посте👇
Часть 1
Делюсь бесценным материалом моего коллеги — Виктора Коренного. Поможет примерить на себя роль тимлида (на проектной деятельности в промышленности), если вы только планируете им стать. Далее исходный текст.
Главная ответственность тим-лида — отвечает за результат проекта, т.е. за эффект.
Что важно для идеального тим-лида:
Чтобы решать такие задачи, нужно очень сильно хотеть выиграть. Здесь не сработает никакая другая мотивация. Нужно быть лидером, проявлять инициативу, брать на себя ответственность, не сдаваться и не отступать после первых неудач. В таком деле они неизбежны.
• Дает ли решение эффект?
• За счет чего достигается эффект?
• Какие гипотезы в работе для повышения эффекта?
• Какие гипотезы будут в работе в ближайшие 2 недели для повышения эффекта?
• Что еще можно попробовать?
Тим-лид должен иметь четкое видение образа результата работы логики алгоритма:
• Целевое состояние системы
• Критерии оценки отклонения текущего состояния от целевого
• Недостающие измерения
• Чем их можно компенсировать / чем можно пренебречь
• Работает ли фабрика на это целевое состояние. Если нет, в каких точках. Эти точки (как технологические, так и организационные) и есть потенциальный источник эффекта.
• Мне нужно, чтобы все DSы выехали на площадку на месяц и не вылезали оттуда, пока не будет достигнут эффект.
• Мне нужно, чтобы с фабрики нам передали такие-то данные для анализа или отдали нам такое-то управление или чтобы операторы не вмешивались в такие-то управления.
ОБЯЗАТЕЛЬНО: после того, как фабрика выполнит наше пожелание, показать к чему это привело. Сработала ли наша гипотеза. Поблагодарить фабрику.
Вообще любые запросы нужно формировать с конкретными цифрами. Например, если мы хотим, чтобы нам разрешили отклоняться от текущего регламента:
• на сколько максимально мы можем отклониться
• на какой период времени
• по какому критерию можно понять, что это отклонение не оказывает негативного влияния на технологический процесс. Допустимые границы значений этого критерия.
• в какой ситуации оператор может вмешаться, в какой не должен вмешиваться
• какие еще действия требуются от оператора (например, какие регуляторы должны быть в автомате)
• на какой срок проводим эксперимент
• по какому критерию будем мерить эффект от эксперимента
И далее, если эксперимент был удачным, просить поменять регламент.
Продолжение в следующем посте
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤8🔥4💩1
Как стать лидом и быть эффективным. Часть 2.2
Часть 1, часть 2.1
6️⃣ Очень важно общение с фабрикой. Абсолютна недопустима ситуация, когда на фабрике никто не знает тим-лида.
7️⃣ Лид должен организовать работу так, чтобы во время запусков не было необходимости постоянно мониторить работу решения и вручную вмешиваться в процесс. Для этого необходимо подготовить ряд аналитических инструментов, которые позволяют:
• Отслеживать общие метрики работы решения, направлять уведомления, если они выходят за допустимые границы
• Отслеживать промежуточные метрики работы решения, которые свидетельствуют о том, что в процессе есть проблемы, которые через некоторое время скажутся на показателях. Направлять уведомления, если промежуточные метрики выходят за допустимые границы.
• Определять последствия вмешательства алгоритма. Определять, привело ли вмешательство к ожидаемому эффекту или нет. Аналогично по нашим ручным вмешательствам в процесс.
• Определять необычные ситуации на процессе, при которых действия алгоритма не дают ожидаемого эффекта. Искать, как можно эти ситуации отличить по входящим параметрам.
• Проводить регулярную аналитику по прошедшему запуску, отслеживать, какие были проблемные моменты, когда алгоритм отработал хуже, чем ожидалось.
• Проводить аналитику по вмешательствам операторов. Определять влияние вмешательств на показатели процесса. Автоматически находить моменты, когда управление оператора отличалось от наших правил, при этом дало положительный результат.
• На основании статистики за длительный период определять, какие типичные вмешательства операторов не дают ожидаемого эффекта, чтобы на основании этого сформировать правила по узлам, в которые операторы могут / не могут вмешиваться.
Необходимо обучить команду работе с этими инструментами, поставить эту работу “на поток”, чтобы она проходила без участия лида.
8️⃣ Важно взаимодействие с собственной командой:
• Иметь понимание на старте, сколько людей нужно и с какими компетенциями
• Если по ходу проекта оценка изменилась, делать запросы на новых людей, добиваться того, чтобы их дали, подключать РМа
• Не бояться расставаться с людьми, которые не приносят пользу проекту
• В каждый момент времени понимать, чем занят каждый член команды
• Четко понимать приоритеты, не давать людям уходить в рутинные задачи, когда важные задачи не сделаны
• Понимать сильные и слабые стороны каждого
9️⃣ Также у лида должно быть четкое представление, как он собирается передавать решение на поддержку:
• Как сделать так, чтобы за решением не нужно было постоянно наблюдать и вмешиваться вручную, чтобы не терять эффект
• Какие управления мы передаем оператору, в какие запрещаем оператору вмешиваться, по какому принципу устроено это разделение
• Какие метрики эффекта от решения, как их можно автоматически считать
• Как понять, что повлияло на эти метрики
• Какие действия требуются от команды поддержки, чтобы передать решение на поддержку
❓ Ну как вам? согласны/не согласны?
Часть 1, часть 2.1
• Отслеживать общие метрики работы решения, направлять уведомления, если они выходят за допустимые границы
• Отслеживать промежуточные метрики работы решения, которые свидетельствуют о том, что в процессе есть проблемы, которые через некоторое время скажутся на показателях. Направлять уведомления, если промежуточные метрики выходят за допустимые границы.
• Определять последствия вмешательства алгоритма. Определять, привело ли вмешательство к ожидаемому эффекту или нет. Аналогично по нашим ручным вмешательствам в процесс.
• Определять необычные ситуации на процессе, при которых действия алгоритма не дают ожидаемого эффекта. Искать, как можно эти ситуации отличить по входящим параметрам.
• Проводить регулярную аналитику по прошедшему запуску, отслеживать, какие были проблемные моменты, когда алгоритм отработал хуже, чем ожидалось.
• Проводить аналитику по вмешательствам операторов. Определять влияние вмешательств на показатели процесса. Автоматически находить моменты, когда управление оператора отличалось от наших правил, при этом дало положительный результат.
• На основании статистики за длительный период определять, какие типичные вмешательства операторов не дают ожидаемого эффекта, чтобы на основании этого сформировать правила по узлам, в которые операторы могут / не могут вмешиваться.
Необходимо обучить команду работе с этими инструментами, поставить эту работу “на поток”, чтобы она проходила без участия лида.
• Иметь понимание на старте, сколько людей нужно и с какими компетенциями
• Если по ходу проекта оценка изменилась, делать запросы на новых людей, добиваться того, чтобы их дали, подключать РМа
• Не бояться расставаться с людьми, которые не приносят пользу проекту
• В каждый момент времени понимать, чем занят каждый член команды
• Четко понимать приоритеты, не давать людям уходить в рутинные задачи, когда важные задачи не сделаны
• Понимать сильные и слабые стороны каждого
• Как сделать так, чтобы за решением не нужно было постоянно наблюдать и вмешиваться вручную, чтобы не терять эффект
• Какие управления мы передаем оператору, в какие запрещаем оператору вмешиваться, по какому принципу устроено это разделение
• Какие метрики эффекта от решения, как их можно автоматически считать
• Как понять, что повлияло на эти метрики
• Какие действия требуются от команды поддержки, чтобы передать решение на поддержку
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍9👏2🤝2💩1
Экосистема для разработки и применения Computer Vision (CV) в промышленности
Выпустили с коллегами длиннопост на хабр о том, как мы "варим" (отсылка к процессу флотации) CV в промышленности. Но речь не про CV модели и решение бизнес-задач, а про процесс разработки решений с CV в промышленности, обычно скрытый от глаз. На мой взгляд про это гораздо меньше публичной информации, а зря. Хотя и объяснимо с учетом не самого высокого уровня зрелости ML команд в промышленности.
Запасаюсь попкорном и жду комментарии на хабре🙂
Выпустили с коллегами длиннопост на хабр о том, как мы "варим" (отсылка к процессу флотации) CV в промышленности. Но речь не про CV модели и решение бизнес-задач, а про процесс разработки решений с CV в промышленности, обычно скрытый от глаз. На мой взгляд про это гораздо меньше публичной информации, а зря. Хотя и объяснимо с учетом не самого высокого уровня зрелости ML команд в промышленности.
Запасаюсь попкорном и жду комментарии на хабре
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Экосистема для разработки и применения Computer Vision (CV) в промышленности
Статья написана 2мя авторами: Иваном Мигалем и Юрием Кацером. На сегодняшний день компьютерное зрение (CV — computer vision) активно применяется в промышленности и уже стало привычной технологией для...
👍19❤5🔥4😁1
Отличный перевод отличной статьи про подготовку докладов на конференции. Обязательно к прочтению неопытным спикерам или тем, кто хочет начать выступать.
Мне очень симпатичен подход, описанный в статье, хоть он и отличается от моего. Очень системно, выверенно, фундаментально, осмысленно — все, как я люблю
Что еще отмечу:
• Опыт выступлений неплохо компенсирует подготовку, что неоднократно меня выручало.
• Темы докладов у меня живут в голове по полгода минимум. Да и уже накопился бэклог тем, так что зовите на конференции
• В отличие от автора статьи слайды я осознанно делаю полезными автономно, чтобы и без просмотра видео (иногда недоступного) была польза.
• Даже российские топовые конференции требуют значительный уровень подготовки и проработки доклада. Например, иногда консультируют профессиональные ораторы, проводятся пара прогонов финальной версии доклада, а работа по докладу начинается больше, чем за полгода.
Please open Telegram to view this post
VIEW IN TELEGRAM
Medium
Выступать на конференции
Статья Хинека Шлавака как пошаговая инструкция и дневник профессионального спикера мгновенно захватила моё внимание. О подобных подходах и…
👍13🔥6
🗺Карта инструментов Open Source для ИИ от российских команд
Карта open-source проектов России, дополняющая исследование коллег из ИТМО. Видел первую версию с ≈80 проектами, но недавно обновили, и теперь 128 проектов, включая SKAB✔️
Угадайте, сколько из них про промышленность?2? 😓
А еще в приложении к карте отдельно собрали профили некоторых участников команд на GitHub, HuggingFace, ResearchGate, Habr и других платформах.
Карта | Приложение
Карта open-source проектов России, дополняющая исследование коллег из ИТМО. Видел первую версию с ≈80 проектами, но недавно обновили, и теперь 128 проектов, включая SKAB
Угадайте, сколько из них про промышленность?
А еще в приложении к карте отдельно собрали профили некоторых участников команд на GitHub, HuggingFace, ResearchGate, Habr и других платформах.
Карта | Приложение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥5👏3
This media is not supported in your browser
VIEW IN TELEGRAM
Автоматизация разметки режимов работы флотомашины. Часть 1
Предположим, есть задача разметить (выдать временные интервалы и лейблы) состояния флотомашины, чтобы дальше обучить классификатор. Можно выделить 3 основных состояния:
🔴 льет — вместе с пеной сходит пульпа
🔴 сидит — мало пены, недостаточно активный пеносъем
🔴 норма
Из данных доступны:
🟢 уставки/факт по уровню пульпы во флотомашине, расходу воздуха, некоторые другие сигналы (ток импеллера, открытие дарт-клапанов и тд)
🟢 признаки CV (стандартный набор: количество пузырей, средний размер, скорость и тд)
🟢 исходный видеопоток с возможностью записи видео и периодических картинок
Варианты решений:
1️⃣Первое, что хочется сделать — записать бесконечно долгое видео и отдать на разметку кому-нибудь, чтобы вернули периоды времени и лейблы режимов. Можно будет нарезать и преобразовать исторические данные в таблицу с 3 классами. А дальше — fit-predict.
2️⃣Если мы экономим место на диске, время и деньги на разметке, или нам сложно доставать видео файлы из какого-то закрытого контура, то можно посадить кого-то смотреть на видеопоток в режиме реального времени и точно так же записывать интервалы с лейблами. Дальше нарезаем данные и fit-predict.
3️⃣Попробуем еще сэкономить время и автоматизировать процесс: можно визуально смотреть на важные признаки, говорящие об изменении режима (скорость, количество пузырей, какие-то более сложные детекторы). Вручную нарезать интервалы в соответствии с признаками. Просмотреть видео/фото каждого интервала (на всякий случай) и назначить лейблы. Дальше готовим данные и fit-predict. Правда будет хромать точность разметки у такого метода.
4️⃣А если максимально все автоматизировать и сэкономить?
• Сохраняем не видеофайлы, а картинки или периодические короткие (5 секунд) видео (например, раз в 1-5 минут).
• Для сегментации сигналов давайте брать исходные сигналы (CV или другие параметры) и использовать ruptures для получения интервалов. Чтобы ruptures настроить, можно использовать ground truth разметку из пунктов выше.
• Полученным временным сегментам присваиваем ранее собранные изображения/короткие видео (могут лежать в отдельной папочке с айди интервала).
• Отдаем на разметку, где задача у каждого интервала просматривать файлы в папке (картинки или видео) и назначать класс.
• Если уже есть какой-то классификатор, выдающий вероятность отнесения к классу, то можно сократить кол-во проверяемых интервалов до тех, у которых средняя вероятность ниже порога (или любой другой ваш критерий). Те, в которых уверены, размечаем автоматом.
profit! Есть идеи, как еще докрутить?
Осталось разобраться, какой режим на видео🤔
Предположим, есть задача разметить (выдать временные интервалы и лейблы) состояния флотомашины, чтобы дальше обучить классификатор. Можно выделить 3 основных состояния:
Из данных доступны:
Варианты решений:
1️⃣Первое, что хочется сделать — записать бесконечно долгое видео и отдать на разметку кому-нибудь, чтобы вернули периоды времени и лейблы режимов. Можно будет нарезать и преобразовать исторические данные в таблицу с 3 классами. А дальше — fit-predict.
2️⃣Если мы экономим место на диске, время и деньги на разметке, или нам сложно доставать видео файлы из какого-то закрытого контура, то можно посадить кого-то смотреть на видеопоток в режиме реального времени и точно так же записывать интервалы с лейблами. Дальше нарезаем данные и fit-predict.
3️⃣Попробуем еще сэкономить время и автоматизировать процесс: можно визуально смотреть на важные признаки, говорящие об изменении режима (скорость, количество пузырей, какие-то более сложные детекторы). Вручную нарезать интервалы в соответствии с признаками. Просмотреть видео/фото каждого интервала (на всякий случай) и назначить лейблы. Дальше готовим данные и fit-predict. Правда будет хромать точность разметки у такого метода.
4️⃣А если максимально все автоматизировать и сэкономить?
• Сохраняем не видеофайлы, а картинки или периодические короткие (5 секунд) видео (например, раз в 1-5 минут).
• Для сегментации сигналов давайте брать исходные сигналы (CV или другие параметры) и использовать ruptures для получения интервалов. Чтобы ruptures настроить, можно использовать ground truth разметку из пунктов выше.
• Полученным временным сегментам присваиваем ранее собранные изображения/короткие видео (могут лежать в отдельной папочке с айди интервала).
• Отдаем на разметку, где задача у каждого интервала просматривать файлы в папке (картинки или видео) и назначать класс.
• Если уже есть какой-то классификатор, выдающий вероятность отнесения к классу, то можно сократить кол-во проверяемых интервалов до тех, у которых средняя вероятность ниже порога (или любой другой ваш критерий). Те, в которых уверены, размечаем автоматом.
profit! Есть идеи, как еще докрутить?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥5👀2👏1
Автоматизация разметки режимов работы флотомашины. Часть 2
Дополнение первого поста от Алексея из комментариев и из общения с подписчиками в лс.
О выходных данных из алгоритма
Имелось в виду, что алгоритм выдает класс состояния для каждой временной метки/точки/вектора признаков (поточечные значения класса). Хотя выходом алгоритма может быть и точки изменения состояния, так как из одной постановки задачи в другую несложно перейти.
Об агрегации поточечных значений класса для интервала при выделении интервалов
У нас есть интервал, в котором n точек, у каждой из которых предсказан класс. По интервалу можно и среднее, и моду (для целых значений) брать, чтобы принимать решение, например, нужен ли взгляд разметчика или и так очень сильно уверены. Трешхолд можно тоже подобрать на данных. Да и некачественно нарезанные сегменты (большая дисперсия классов точек) можно будет дропать/доразмечать вручную.
О приемке подобных систем на производстве
Специальные ПСИ на подобный алгоритм разметки состояний может не проводится, если алгоритм, например, является частью системы управления: то есть испытывается вся система в комплексе и смотрится эффект от всего решения. Можно даже проводить A/B/C тест (с использованием этого алгоритма в управлении и без него).
Если предположить, что алгоритм сдается отдельно, то я вижу 2 варианта:
1. Либо как ground truth используется размеченное видео — на сыром прогоняем, получаем свою разметку и сравниваем с ground truth.
2. Либо мы пишем видео в параллель с работой алгоритма и потом смотрим на результаты работы алгоритма, отмечая, судя по видео, что верно, что нет.
Кадры vs Видеофрагменты
По моему опыту, сохранять всего лишь кадры не так хорошо, так как по ним не всегда можно понять состояние, лучше видео.
Дополнения к вариантам решений из 1ой части (продолжаю нумерацию):
5️⃣Предобработка видео с временной компрессией.
Иногда жидкость начинает течь особенно медленно и тогда можно создавать ускоренные видеофрагменты (например, 5x или 10x) для интервалов, чтобы эксперт мог быстрее просматривать длинные периоды времени и определять режимы работы.
6️⃣Внедрить инкрементальное обучение(IL).
По мере накопления размеченных данных постепенно улучшайте модель классификации и используйте её для предсказания меток на новых данных. Эксперт проверяет только те интервалы, где уверенность модели ниже порога.
7️⃣Слияние мультимодальных данных.
Объедините данные с датчиков (температуры, вибрации) и визуальные признаки в единую репрезентацию с помощью методов нейронного слияния (по типу того, что делают в импульсных НС), стекинга или простого сложения эмбеддингов. Это повысит точность автоматической сегментации.
8️⃣Интеграция методов самообучения.
Используйте подходы self-supervised learning для извлечения признаков из неразмеченных данных. Это поможет улучшить качество предобученных представлений, а затем дообучить классификатор с меньшим количеством разметки.
9️⃣Сжатие данных.
Если вы используете трансформеры, то можно поэкспериментировать с извлечением признаков из них уже после обучения. На основе этих данных можно, например, уловить минимальный размер для сжатия данных без просадок в точности классификации.
🔟Про добавление алгоритмов коррекции искажений перед отправкой изображений в модель и внедрение area attention.
Натыкался на статью "Multi-Scale Deformable Transformers for Student Learning Behavior Detection in Smart Classroom".
Там предложили очень интересный подход с Multi-Scale Deformable Transformers, который преодолевает ограничения существующих моделей, такие как проблемы с окклюзией, размытием и различием масштабов объектов в динамичной и сложной среде. Так вот, на основе этого трансформера можно собрать отдельный модуль внимания по типу этого. Итак, используя Area Attention для восстановления изображения, а в другой модели MDAM для сегментации и обнаружения объектов, можно сильно вырасти в качестве точности и повторяемости классификаций/сегментаций/обнаружении объектов.
Дополнение первого поста от Алексея из комментариев и из общения с подписчиками в лс.
О выходных данных из алгоритма
Имелось в виду, что алгоритм выдает класс состояния для каждой временной метки/точки/вектора признаков (поточечные значения класса). Хотя выходом алгоритма может быть и точки изменения состояния, так как из одной постановки задачи в другую несложно перейти.
Об агрегации поточечных значений класса для интервала при выделении интервалов
У нас есть интервал, в котором n точек, у каждой из которых предсказан класс. По интервалу можно и среднее, и моду (для целых значений) брать, чтобы принимать решение, например, нужен ли взгляд разметчика или и так очень сильно уверены. Трешхолд можно тоже подобрать на данных. Да и некачественно нарезанные сегменты (большая дисперсия классов точек) можно будет дропать/доразмечать вручную.
О приемке подобных систем на производстве
Специальные ПСИ на подобный алгоритм разметки состояний может не проводится, если алгоритм, например, является частью системы управления: то есть испытывается вся система в комплексе и смотрится эффект от всего решения. Можно даже проводить A/B/C тест (с использованием этого алгоритма в управлении и без него).
Если предположить, что алгоритм сдается отдельно, то я вижу 2 варианта:
1. Либо как ground truth используется размеченное видео — на сыром прогоняем, получаем свою разметку и сравниваем с ground truth.
2. Либо мы пишем видео в параллель с работой алгоритма и потом смотрим на результаты работы алгоритма, отмечая, судя по видео, что верно, что нет.
Кадры vs Видеофрагменты
По моему опыту, сохранять всего лишь кадры не так хорошо, так как по ним не всегда можно понять состояние, лучше видео.
Дополнения к вариантам решений из 1ой части (продолжаю нумерацию):
5️⃣Предобработка видео с временной компрессией.
Иногда жидкость начинает течь особенно медленно и тогда можно создавать ускоренные видеофрагменты (например, 5x или 10x) для интервалов, чтобы эксперт мог быстрее просматривать длинные периоды времени и определять режимы работы.
6️⃣Внедрить инкрементальное обучение(IL).
По мере накопления размеченных данных постепенно улучшайте модель классификации и используйте её для предсказания меток на новых данных. Эксперт проверяет только те интервалы, где уверенность модели ниже порога.
7️⃣Слияние мультимодальных данных.
Объедините данные с датчиков (температуры, вибрации) и визуальные признаки в единую репрезентацию с помощью методов нейронного слияния (по типу того, что делают в импульсных НС), стекинга или простого сложения эмбеддингов. Это повысит точность автоматической сегментации.
8️⃣Интеграция методов самообучения.
Используйте подходы self-supervised learning для извлечения признаков из неразмеченных данных. Это поможет улучшить качество предобученных представлений, а затем дообучить классификатор с меньшим количеством разметки.
9️⃣Сжатие данных.
Если вы используете трансформеры, то можно поэкспериментировать с извлечением признаков из них уже после обучения. На основе этих данных можно, например, уловить минимальный размер для сжатия данных без просадок в точности классификации.
🔟Про добавление алгоритмов коррекции искажений перед отправкой изображений в модель и внедрение area attention.
Натыкался на статью "Multi-Scale Deformable Transformers for Student Learning Behavior Detection in Smart Classroom".
Там предложили очень интересный подход с Multi-Scale Deformable Transformers, который преодолевает ограничения существующих моделей, такие как проблемы с окклюзией, размытием и различием масштабов объектов в динамичной и сложной среде. Так вот, на основе этого трансформера можно собрать отдельный модуль внимания по типу этого. Итак, используя Area Attention для восстановления изображения, а в другой модели MDAM для сегментации и обнаружения объектов, можно сильно вырасти в качестве точности и повторяемости классификаций/сегментаций/обнаружении объектов.
Telegram
Katser
Автоматизация разметки режимов работы флотомашины
Предположим, есть задача разметить (выдать временные интервалы и лейблы) состояния флотомашины, чтобы дальше обучить классификатор. Можно выделить 3 основных состояния:
🔴льет — вместе с пеной сходит пульпа…
Предположим, есть задача разметить (выдать временные интервалы и лейблы) состояния флотомашины, чтобы дальше обучить классификатор. Можно выделить 3 основных состояния:
🔴льет — вместе с пеной сходит пульпа…
🔥5👍3
Мне было интересно послушать об итогах года в ML in Manufacturing от Димы Подвязникова. 2 года выступаю у Димы в секции на Datafest'е и даже немного помогаю собирать доклады.
Я бы дополнил выступление (далее с ссылками на материалы в канале):
За упоминание RUL в ключевых докладах отдельное спасибо
Наверно, и я много всего забыл — делитесь в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Дмитрий Подвязников | Итоги года в ML in Manufacturing
Спикер: Дмитрий Подвязников
Data Ёлка 2024 в гостях у Ecom.tech: https://ods.ai/events/data-elka-24-ecomtech-offline
Data Ёлка 2024: https://ods.ai/events/data-elka-2024
_____
Наши соц.сети:
Telegram: https://news.1rj.ru/str/datafest
Вконтакте: https://vk.com/datafest…
Data Ёлка 2024 в гостях у Ecom.tech: https://ods.ai/events/data-elka-24-ecomtech-offline
Data Ёлка 2024: https://ods.ai/events/data-elka-2024
_____
Наши соц.сети:
Telegram: https://news.1rj.ru/str/datafest
Вконтакте: https://vk.com/datafest…
🔥6👍3❤1👏1
cnpostercorpsoft2025.pdf
14.4 MB
Программные разработки российских корпораций, 2025
На карте длясебя вас выделил зеленым те разработки, которые относятся к ML прямо или хотя бы имеют часть функционала на основе ML. Прокомментирую материал в контексте ML.
Пишут:
Со второй частью тезиса сложно не согласиться, да и наблюдаю попытки продажи разработок (остающим) конкурентам по отрасли. Но вот недостатков у внутренних разработок полно. Несколько моих комментариев:
🟡 Продуктивизация: если делают проект, то часто не думают, чтобы сделать из этого продукт.
🟡 Поддержка: не умеют DS/ML дочки/команды в поддержку своих продуктов. Да и с доработкой под нового заказчика предполагаю, что может быть сложно.
🟡 Цена провала: если ты вендор/подрядчик, то не внедрение и плохой продукт — конец бизнеса (все сверху до лидов это точно понимают), а для внутренней команды это еще одна невыстрелившая гипотеза. Слегка обострил, но суть, надеюсь, поняли. Это влияет на конечный продукт.
🟡 Оверфиттинг под предприятие/холдинг: разрабатывая продукт, цифровые дочки ориентируются на специфику холдинга, которая может сильно отличаться у конкурентов/партнеров.
🟡 Кастомность разработки: некоторые разработки просто кастомные и максимум, что можно продавать — экспертизу, подходы к решению задачи.
🟡 Немного поворчу, что опять не всех пересчитали, например, на том же comnews писали про продукт цифрума и РАСУ (мб уже нет продукта?).
Ну и последний комментарий:никто ничего мне не занес, а могли бы 🤦♂️
Про причины недостатков такого ПО можно рассуждать и спорить долго, среди важных: отсутствие открытой конкуренции (преференции внутренним командам), проблемы корпоративных процессов (проще и быстрее закупить железо и софт подрядчику, чем встроиться в цикл закупки предприятия). Есть и многие другие.
Ссылка на исходный материал.
На карте для
Пишут:
Коммерциализация такого ПО имеет высокий шанс на успех, поскольку оно лучше учитывает специфику бизнес-процессов и производства компаний отрасли.
Со второй частью тезиса сложно не согласиться, да и наблюдаю попытки продажи разработок (остающим) конкурентам по отрасли. Но вот недостатков у внутренних разработок полно. Несколько моих комментариев:
Ну и последний комментарий:
Про причины недостатков такого ПО можно рассуждать и спорить долго, среди важных: отсутствие открытой конкуренции (преференции внутренним командам), проблемы корпоративных процессов (проще и быстрее закупить железо и софт подрядчику, чем встроиться в цикл закупки предприятия). Есть и многие другие.
Ссылка на исходный материал.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8👏3❤1🔥1🗿1
Гибридное моделирование. Часть 2 — кейсы
В первой части погрузились в подходы, пора закрепить опытом коллег и прокачать насмотренность. К тому же встречаю много скепсиса, иногда оправданного. Поэтому привожу реальные кейсы из своего репозитория. А вы можете как контрибьютить в репозиторий (хотя и просто за🌟 спасибо), так и поделиться другими кейсами к комментариях👇 .
🔵 ГПН (НГУ). Гибридное моделирование глушения скважин в условиях АНПД. Степан Кармушин и Антон Кожухов [tg]
🔵 Еврохим (ЦТиП). Разработка рекомендательной системы для производства аммиака. Александр Верхоломов [youtube]
🔵 Инфосистемы Джет. Помощник сталевара: для чего металлургам нужно машинное обучение? Антон Головко [habr]
🔵 Северсталь. Система управления процессом окомкования железорудных окатышей. Андрей Голов [youtube], [habr]
🔵 ИТМО. Гибридное моделирование океана: совмещаем гидродинамику и машинное обучение. Юлия Борисова [youtube]
ПС Репозиторий, кстати, регулярно обновляю и дополняю, чтобы было удобно пользоваться, но открыт к предложениям по улучшению.
В первой части погрузились в подходы, пора закрепить опытом коллег и прокачать насмотренность. К тому же встречаю много скепсиса, иногда оправданного. Поэтому привожу реальные кейсы из своего репозитория. А вы можете как контрибьютить в репозиторий (хотя и просто за
ПС Репозиторий, кстати, регулярно обновляю и дополняю, чтобы было удобно пользоваться, но открыт к предложениям по улучшению.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Katser
Гибридное моделирование
Как правило, гибридным моделированием называют объединение или ансамблирование подходов физико-математического моделирования (первых принципов) и статистического моделирования/моделирования на данных/машинного обучения. Топ-3 популярных…
Как правило, гибридным моделированием называют объединение или ансамблирование подходов физико-математического моделирования (первых принципов) и статистического моделирования/моделирования на данных/машинного обучения. Топ-3 популярных…
3🔥10👍2
Следим и слушаем "топов": Head of DS'ов, CDS'ов, CDO, директоров инноваций, директоров цифровых дочек холдингов и вендоров решений в промышленности.
Что мне интересно в таких материалах:
Примеры полезных выступлений/презентаций/интервью/подкастов:
Стоит обращать внимание на дату материалов, потому что хоть и медленное, но развитие есть.
Еще мои мысли:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍13❤3💯3👏1👀1
Выступил не так давно на стратегической сессии крупной машиностроительной компании. Ну и как не поделиться с вами материалами с лекционной части (слайды в комментариях
Расскажу более детально о своем докладе:
ПС Если кто-то из спикеров подписан на канал и против публикации материалов — напишите в лс.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍8
Пост с представлением датасета, постановками задач и материалами с кодом здесь. А сегодня поделюсь работой Дмитрия Меняйлова, Junior ML инженера в промышленности, моего студента: Дима подготовил EDA и собственное решение задачи определения RUL. Будет рад конструктивной критике и обратной связи.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤8🔥4👏1