NEW BOT Телеграм, страница - 401380184

Katser

2.26K subscribers

93 photos

7 videos

10 files

137 links

Авторский канал @ykatser по data science, машинному обучению и искусственному интеллекту в основном в задачах промышленности, но не только

Download Telegram

About

Blog

Apps

Platform

2.26K subscribers

Поздравляю всех с Новым годом!

✨

✨

✨

Пост с подведением итогов года будет позже, а пока подобьем важные статистические показатели для канала:

🥚В 2023 году канал появился (8 месяцев и 12 дней назад)

💪За 8 месяцев канал вырос до 850+ подписчиков

😋Написано 90+ содержательных постов

Благодарен каждому из вас за доверие и участие! Stay tuned

Please open Telegram to view this post

VIEW IN TELEGRAM

👍33☃5🥰5🏆3❤1🔥1🍾1

2.1K views18:34

⏳

Подведение итогов года и постановка целей на следующий

Не будем задаваться вопросами, необходимо ли ставить цели, не переоценен ли эффект от этого, зачем структурировать и делать этот процесс регулярным, просто скажу, что для меня это работает. Поэтому перейду сразу к своим правилам подведения итогов и постановки целей на год.

1️⃣Прохожу этот процесс 4ый раз, каждый год внося правки и слегка улучшая (меняю детализацию, правила приоритезации, категории)

2️⃣Занимает процесс несколько дней: как правило, подвожу итоги года за 1 присест, а собираю планы на следующий за 2-3, даю себе время подумать, чего бы мне еще хотелось и что я мог забыть. Предпочитаю сделать это до наступления НГ, но можно и на январски праздниках

3️⃣На сегодняшний день выделяю условные 4 группы целей: работа, академия+опенсорс, личный бренд, быт и отношения. Не стараюсь поставить цели во всех сферах жизни, в некоторых оставляю свободу

4️⃣Начинаю процесс с подведения итогов прошлого года, расставляя галочки напротив выполненных целей и дописывая комментарии (например: не выполнил, потому что отпало желание/сменились приоритеты или потому что не успел, но переношу на следующий год). Дописываю дополнительные незапланированные результаты. Анализирую, почему те или иные цели не были достигнуты, но обычно все ответы уже есть на поверхности

5️⃣Нормально отношусь к невыполненным целям: за прошлый год не достиг 10 из 27, 4 перенес на 2024. Это еще и часть терапии — умение снижать требования к себе, приоритезировать отдых и здоровье над желанием сделать больше.

6️⃣После анализа результатов прошлого года перехожу к плану на следующий год. Стараюсь ставить достижимые цели и выбирать только те, которые подходят одновременно под 2 описания: "буду очень рад, если получится это сделать" и "интересно этим заниматься или это уже надо закончить". Не очень люблю процессные цели (хотя такие каждый год есть), предпочитаю те, в которых описан конкретный результат, даже с конкретным числом

7️⃣Выделяю приоритетную категорию, на которой фокусируюсь больше, и несколько (1-3) приоритетных целей, которые надо достичь несмотря ни на что. Выбираю, ориентируясь на то, насколько развитие в каком-то направлении приблизит меня к достижению глобальных жизненных целей

8️⃣Веду все записи ручкой в блокноте, но итоговым план на год дополнительно переношу в Trello, чтобы проще было к нему обращаться в течение года, например, во время ежедневной работы над своим расписанием и планом на день (все свои дела веду в Trello)

9️⃣В течение года редко перерабатываю цели на год, хотя иногда делаю (это обычно происходит при возникновении внешних факторов и новых возможностей). То есть живу более-менее по выбранному плану, но могу скорректировать численные показатели в большую сторону

🔟 У меня не возникает большой проблемы помнить о плане на год, потому что мне в принципе проще жить с планом, так что для меня это скорее необходимость, чем дополнительное ограничение. Поэтому у меня и не возникает проблемы с недостижением целей из-за того, что я про них забыл и вспомнил только на следующий год во время подведения итогов.

Про мои принципы формирования краткосрочных планов на неделю/день, составление расписание и как в течение года я формирую дела, чтобы достигать больших целей напишу отдельно.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25🔥6❤‍🔥3👏1

2.02K views09:02

Media is too big

VIEW IN TELEGRAM

Опыт преподавания в Data Science

Еще одним моим «хобби», помимо исследований, является преподавание. О моем опыте преподавания в конце поста, а сейчас немного мыслей.

Принято считать, что те, кто занимаются преподаванием либо уже не востребованы в индустрии, либо изначально являются преподавателями без особого опыта в индустрии. Хотя для ДСов, по моему опыту, такое мнение не справедливо. Я видел большое число примеров работающих и востребованных «практиков» или ученых, занимающихся преподаванием. Конечно, есть и более классические примеры преподавателей, но их не так много.
Допускаю, что в действительности картина другая, но делюсь своим опытом.

Почему в анализе данных много преподавателей-практиков?

🗺

Мне кажется, что все просто: область анализа данных относительно молодая, еще не успела сформироваться большая каста преподавателей.
Но это и хорошо, так как обычно востребованных специалистов сложно затащить читать курс, максимум — гостевые редкие лекции (спойлер: я к этому и пришел). При этом польза от участия практикующих и успешных специалистов в преподавании колоссальная. Анализ данных и машинное обучение динамично развивается, и сегодня публикуются статьи, завтра появляются опен cорс разработки, а послезавтра — это уже используется в индустрии. И речь не только про чатгпт, но и про менее популярные и узконаправленные разработки.

Мой опыт

👋

Опыт получился довольно обширным, хотя я и не нырнул в преподавание с головой. Начал преподавать в 2019 году, когда учился в аспирантуре. Первым был небольшой курс для школьников на тему «интернет вещей», после чего делал и читал курсы в Росатоме, МФТИ и даже делал курс для онлайн-школы на заказ (видео к посту). Получалось с переменным успехом и отнимало слишком много сил и времени, поэтому сейчас я перестал читать большие курсы где-либо. Чтобы утолять жажду делиться знаниями — пишу статьи, завел канал, иногда выступаю на конференциях, являюсь научруком и членом ГЭК, а также читаю отдельные платные лекции и вебинары (правда в последнее время нечасто).

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16🔥5🤓3

1.88K views05:02

🛫

Зависимость успеха ИИ проекта в промышленности от командировок на активы

Важный аспект работы над решением на основе данных (AI-, ML-based) в промышленности — командировки на актив. Почти все, что я ниже отношу к командировкам, можно делать удаленно, но это никогда не работает правильно:
• Нет доступа к нужным сотрудникам. Можно просто не знать и не познакомиться с заинтересованным и вовлеченным сотрудником заказчика.
• Проблемы коммуникации в онлайне. Мало, кто будет охотно делиться реальными проблемами в работе по скайпу «с какими-то датасайентистами».
• Сотрудники физически не доступны для связи из-за занятности на активах и нахождения в цеху.

Рассказываю со стороны senior и team lead DS'а, потому что считаю, что умение общаться с заказчиком и иметь соответствующие софт скиллы — это мастхев для senior'а и выше. При этом проектные менеджеры и бизнес-аналитики имеют свои задачи в общении с заказчиком, но могут заменять и дополнять коммуникацию датасайентистов.

🥋

Зачем они нужны и какие задачи?
• На этапе обследования/PoC/в начале проекта: для лучшего знакомства с технологическим процессом, персоналом, заказчиком, ЛПР, для уточнения требований (неформальных), лучшего понимания проблем и особенностей проекта, для повышения оперативности получения данных и информации. Личный контакт в промышленности работает значительно лучше, чем онлайн общение.
• На этапе разработки решения: для повышения оперативности получения дополнительных данных и информации, получения обратной связи, брейнштормов с вовлеченными сотрудниками заказчика, и сбора эвристик/экспертных правил из головы технологов/операторов/мастеров и тд.
• На этапе пуско-наладочных работ и опытно-промышленных испытаний: для лучшего контроля работ, оперативного получения более полной обратной связи, для внесения оперативных изменений в решение при необходимости, для обеспечения прозрачности (в результатах и работе решения) перед заказчиком и снятия напряженности (да-да, придется немного подрабатывать психологом) в случае каких-либо замечаний/проблем.
• На этапе защиты результатов/эффектов: так как это очень часто один из самых коммуникационно сложных этапов проекта, то личное общение позволяет кулуарно обсудить всю поднаготную, найти компромиссы при необходимости и обеспечить прозрачность и ясность для принятия решений и подписания протоколов.

💪

Как сделать командировки наиболее эффективными?
• В начале проекта и на этапе разработки решения полезно съездить в командировку всем членам проекта (ДСам любого уровня), чтобы познакомиться с тех. процессом, информацией о процессе со слов тех. персонала, посмотреть и лучше понять объект моделирования.
• Важно учиться разговаривать на языке сотрудников производства, чтобы доносить свои мысли и интервьюировать. У датасайентистов с этим бывают большие проблемы!
• Командировки стоит делать регулярными, чтобы налаживать контакт на всем протяжении проекта, регулярно получать обратную связь, обеспечивать прозрачность, отвечать на вопросы и снимать напряженность, а не пропадать, возвращаясь с новой версией непонятного решения. В идеале стоит обеспечивать практически непрерывное присутствие на активе кого-то от проектной команды.

Выводы
Интересно бы посмотреть на статистику на большой выборке (я такую не встречал), но мое мнение — вероятность уложиться в срок и бюджет и обеспечить приживаемость решения сильно зависят от командировок, а вот успешность разработки решения зависит, но не так сильно. Больше влияют другие факторы, например, качество и количество данных.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9👍6💯6❤1👏1

2.42K views05:01

☝️

Аугментация временных рядов. Часть 2
Картинка с методами здесь, часть 1 здесь

Делюсь любопытной статьей про аугментацию временных рядов с примерами кода.

Чем любопытна?
• Статья представляет относительно новую библиотеку для аугментации временных рядов — TSGM. Есть и github и статья на arxiv.
• Помимо распространенных методов аугментации, которые я показывал в предыдущем посте, представлен еще один — Dynamic Time Warping Barycentric Average (DTWBA). Коротко о методе: основан на минимизации осредненной метрики DTW одного ряда (заданного извне или прямо выбранного из выборки) до всех рядов выборки. Вариации и применение метода представлены в статье 1 и статье 2.
• В статье на архиве исследуется процедура оценки качества синтезированных данных или качество аугментации.

Давайте на последнем пункте остановимся подробнее.

👨‍🏫

А зачем вообще нужна аугментация временных рядов?
Для начала определим основные причины аугментации:
• Очевидная и частая причина — недостаточный размер датасета для достижения необходимых метрик при обучении модели
• Еще одна причина (встречается и в промышленности) — генерация синтетических данных для передачи подрядчику/исполнителю для проведения исследований с данными. Иногда позволяет снижать риски и делиться чувствительной информацией

🧮

Как оценить качество аугментации?
Чаще всего качество аугментации оценивают просто по приросту метрик модели, обученной на исходной и аугментированной выборках данных. Это справделиво, когда мы хотим повысить качество моделей: качество повысилось — аугментация удачная, все просто. Но статья предлагает еще несколько вариантов оценки:
• Посчитать для исходных и сгенерированных временных рядов схожесть/расстояние, например, Евклидово
• Predictive consistency: посчитать разницу значений метрик качества между двумя моделями на исходных данных и на сгенерированных
• Privacy: насколько исходные данные могут быть объяснены моделью, обученной только на синтетических сгенерированных данных
• Fairness: оценка снижения или устранения перекосов решений модели в сторону миноритарного класса
• Diversity: оценка соответствия распределению и рассредоточевание сгенерированных данных всем областям или бинам на кривой плотности вероятности
• Качественный анализ: визуализация и сравнение данных, например, с помощью t-SNE
• Ну и не забудем про прирост качества модели при аугментации данных

Please open Telegram to view this post

VIEW IN TELEGRAM

Иллюстрация классических методов аугментации временных рядов к предыдущему посту.

🔥16👍11👏3❤1

3.22K views05:02

На прошлой неделе выступил на конференции ИЦК Химия в секции “Применение ИИ для компаний химической отрасли”.
Приятно было увидеть много бывших коллег, знакомых и друзей + завести новые знакомства! 🤝
Рассказал про опыт внедрения машинного обучения в алгоритмы управления и оптимизации флотации. Кстати, для меня это был первый опыт выступления с докладом от "Рокет контрол" (ex-конандрум).

На удивление, конференция была очень насыщенная: послушал и подискутировал про APC/RTO/подсказчики, про управление промышленными проектами с data science, про эффекты и особенности решений, конечно, про флотацию (особенно интересно для меня в последнее время), ну и куда же без промышленных платформ.

Моя презентация как всегда в комментариях👇

Please open Telegram to view this post

VIEW IN TELEGRAM

👍36🔥8❤‍🔥3

2.6K viewsedited 14:15

Недавно провел очередную лекцию на тему ИИ в промышленности. Получился мягкий dive-in в индустрию. Прикрепляю запись , лекция скорее для студентов, будет интересна для начинающих в профессии.

Кстати, после лекции пробил важную отметку в 1000 подписчиков 🙂
Спасибо, что читаете!

Презентация, как всегда, во вложении 👇

Please open Telegram to view this post

VIEW IN TELEGRAM

Открытая лекция «ИИ в промышленности» 21 марта

21 марта прошла открытая лекция «ИИ в промышленности» от Юрия Кацера. На встрече мы поговорили о задачах машинного обучения в промышленности, а также затронули вопросы проблем в индустриальных данных и особенности внедрения машинного обучения на производствах.…

👍28❤8🔥6

4.61K views06:03

🎤 В последнее время было много разных выступлений. Хочу поделиться с вами еще одним: недавно вышел подкаст со мной на Радио Сколтех. Я в роли выпускника сколтеха для абитуриентов, студентов и молодых специалистов. Рассказал о пути в сколтех, возможностях во время обучения, о выборах в учебе и карьере (индустрия vs наука, стартап vs корпорация, бауманка vs сколтех и тд), еще немного про себя сейчас и этот канал.

Кстати, в одном из первых постов на канале я уже рассказывал о том, как "попал в сколтех через хакатон". В подкасте дополнил свою историю деталями и свежей информацией.

🎧Слушайте подкаст, читайте статью и, при желании, задавайте вопросы — на все ~~рано или поздно~~ отвечу!

Please open Telegram to view this post

VIEW IN TELEGRAM

Юрий Кацер: Сколтех vs Бауманка, индустрия и тел...

👍10❤‍🔥4🔥3👏1

2.53K views05:02

🚩

Обнаружение фрода и мошенничества. ч.1

Еще одна интересная область практического применения алгоритмов поиска аномалий — обнаружение фрода и мошенничества.
На Datafest'е даже пару лет подряд были секции, посвященные этой и смежным темам: в 2020, в 2021.

Где популярна задача?
Задача обнаружения фрода популярна в банках, рекламе, электронной коммерции; то есть везде, где есть транзакции и платежи. Поэтому, если хотите подробнее познакомиться с примерами, то можно искать доклады банков, интернет магазинов, агрегаторов объявлений.

Какие методы применяются?
В целом подходы и методы обнаружения аномалий везде одинаковые, главное — как обработать и подготовить признаки. По моему опыту, здесь гораздо чаще применимы именно методы поиска выбросов (или точечных аномалий) в противовес changepoint detection из-за природы данных и самих аномалий. Также, при наличии должной разметки, применимы методы классического ML, а именно методы/модели классификации.

Постановка задачи как обучения с учителем обычно позволяет решать бизнес-задачу хотя бы с более высоким или необходимым качеством, поэтому всегда рекомендую к ней переходить при наличии разметки.

Вот Тинькофф вообще говорят, что методы обучения без учителя в банковском антифроде не дает нужного качества, только supervised.
Здесь интересный (но очень узкий) подход с Автоэнкодером+T-SNE на бутылочном горлышке, а потом ансамбль методов кластеризации. Все на задаче в рекламе от Яндекса.
Кстати, про работу с признаками и про характеристики доступных данных неплохо рассказано в том же видео от Тинькофф.

Больше полезных материалов по ссылкам на секции Datafest'а👆

П.С. Пиарю датафест потому что скоро сам там выступаю?

🧐

Please open Telegram to view this post

VIEW IN TELEGRAM

Андрей Мельников: ML антифрод для интернет платежей

Data Fest Online 2020
Antifraud track: https://ods.ai/tracks/antifraud-df2020
Докладчик: Андрей Мельников, Тинькофф

Расскажем, как машинное обучение позволяет выявлять и блокировать транзакции, когда мошенники обманом вынуждают владельцев карт сообщать реквизиты…

👍12🔥3👏3

2.39K viewsedited 05:02

Предстоящий Datafest и мое присутствие на нем

В прошлом году у меня было 3 доклада на Datafest'е. В этом году — 4... 😶‍🌫️
Подробнее про доклады:

🟡

Сегментация временных рядов: от классических подходов до ансамблей
Секция: TS & Forecasting
О чем: В докладе расскажу немного теории о задаче сегментации временных рядов, сделаю обзор методов и подходов к сегментации. Продемонстрирую сегментацию на практике на основе библиотеки ruptures. Расскажу об ансамблировании алгоритмов на основе статьи с примерами кода.
Когда: 26.05 в 17:00 по мск

🔴

Остаточный ресурс промышленного оборудования
Секция: Survival & Time-to-Event
О чем: В докладе я расскажу об одной из важнейших задач для машинного обучения в промышленности - оценка остаточного ресурса оборудования (RUL, TTF). Вы узнаете не только о существующих подходах к решению задачи, но и о том, какие данные нужны для постановки и решения задачи. Я расскажу о реальных кейсах решения задачи в различных отраслях промышленности.
Когда: 01.06 в ...

🟢

Машинное обучение для оптимизации флотации
Секция: ML in Industry
О чем: Кейс применения технологий анализа данных и машинного обучения для оптимизации процесса флотации.
Когда: 01.06 в ...

🔵

Открытые промышленные данные: зачем нужны, почему так мало и где брать?
Секция: Open Source
О чем: Наверное, ни для кого не секрет, что промышленные данные часто являются закрытыми и не публикуются в открытых источниках. Владельцы настолько ценят свои датасеты: до сих пор нет рынка промышленных данных. А область анализа данных и машинного обучения ну очень сильно опирается на открытые разработки, библиотеки, исследования и датасеты. В докладе планирую рассказать о том, где искать открытые промышленные данные, поделюсь накопленными за мои 6+ лет опыта в промышленности и о репозитории, где собираю такие датасеты.
Когда: 27.05 в 14:20 по мск

Даты добавлю позже, как только станут известны. Stay tuned! 🤓

Please open Telegram to view this post

VIEW IN TELEGRAM

🗣 Выступлю сразу с тремя докладами на ежегодном мероприятии сообщества Open Data Science - DataFest 2023. Можно смотреть онлайн здесь или офлайн, если вы в Ереване.

• «Диагностика нефтегазовых трубопроводов с помощью машинного обучения»
21 мая в 14:00…

🔥29❤‍🔥5👏2

2.41K viewsedited 05:03

🗃

Библиотеки для работы с временными рядами

Периодически во время выступлений в виде слайда демонстрирую список библиотек для решения задач на временных рядах, который начинался с этого поста и статьи по ссылке в нем. Обновленный список библиотек ниже.
А еще я отсортировал все лайкнутые репозитории на гитхабе как на картинке!
Классная фича и еще один повод подписаться на гитхаб 🙂

🔴

Прогнозирование
• [17,9k stars] https://github.com/facebook/prophet
• [9,6k stars] https://github.com/statsmodels/statsmodels
• [7,5k stars] https://github.com/alan-turing-institute/sktime
• [7,4k stars] https://github.com/unit8co/darts
• [4,8k stars] https://github.com/facebookresearch/Kats
• [4,7k stars] https://github.com/thuml/Time-Series-Library
• [3,7k stars] https://github.com/jdb78/pytorch-forecasting
• [3,3k stars] https://github.com/salesforce/Merlion
• [1,8k stars] https://github.com/linkedin/greykite
• [840 stars] https://github.com/etna-team/etna
• [610 stars] https://github.com/aimclub/FEDOT

🟢

Классификация
• [7,5k stars] https://github.com/alan-turing-institute/sktime
• [4,7k stars] https://github.com/thuml/Time-Series-Library
• [2,8k stars] https://github.com/tslearn-team/tslearn/
• [1,7k stars] https://github.com/johannfaouzi/pyts
• [1,5k stars] https://github.com/hfawaz/dl-4-tsc
• [840 stars] https://github.com/tinkoff-ai/etna

🟣

Кластеризация
• [7,5k stars] https://github.com/alan-turing-institute/sktime
• [2,8k stars] https://github.com/tslearn-team/tslearn/

🟡

Агрегация (выделение признаков)
• [8,2k stars] https://github.com/blue-yonder/tsfresh
• [4,8k stars] https://github.com/facebookresearch/Kats
• [800 stars] https://github.com/fraunhoferportugal/tsfel
• [370 stars] https://github.com/predict-idlab/tsflex

🔵

Поиск аномалий (changepoint detection)
• [1,5k stars] https://github.com/deepcharles/ruptures
• [17,9k stars] https://github.com/facebook/prophet
• [4,8k stars] https://github.com/facebookresearch/Kats
• [4,7k stars] https://github.com/thuml/Time-Series-Library
• [3,3k stars] https://github.com/salesforce/Merlion
• [2,1k stars] https://github.com/SeldonIO/alibi-detect
• [1,8k stars] https://github.com/linkedin/greykite
• [1,2k stars] https://github.com/linkedin/luminol
• [1k stars] https://github.com/arundo/adtk

🔴

Поиск аномалий (outlier detection)
• [8k stars] https://github.com/yzhao062/pyod
• [1,3 stars] https://github.com/datamllab/tods
• [840 stars] https://github.com/tinkoff-ai/etna
• [750 stars] https://github.com/zillow/luminaire/
• [220 stars] https://github.com/selimfirat/pysad

🟢

Аугментация и генерация
• [4,8k stars] https://github.com/timeseriesAI/tsai
• [630 stars] https://github.com/ratschlab/RGAN
• [330 stars] https://github.com/arundo/tsaug
• [330 stars] https://github.com/TimeSynth/TimeSynth
• [320 stars] https://github.com/uchidalab/time_series_augmentation

Если есть комментарии к указанным библиотекам или предложения по расширению списка — буду рад почитать в комментариях. 👇

Кстати, если вам интересно познакомиться с состоянием дел в российском опен-сорсе в ИИ, то вот отличная статья от друзей из ИТМО.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥27👍17🔥8❤2👏2

4.7K viewsedited 05:02

Статистика значимых катастроф в энергетике за 100 лет

В докладе про диагностику АЭС ссылался на инциденты в атомной отрасли из этой статьи.
Коротко о статье: авторы собрали значительные инциденты в энергетике, произошедшие за сто лет с 1907 по 2007. Получилось 279 инцидентов с ущербом $41 миллиард и 182156 смертей. В статье есть и методолгия анализа, и разбор причин происшествий, и конкретные примеры, и даже довольно жуткое (и кинематографичное) начало статьи:

On a quiet school day afternoon in March 1937, hundreds of students were preparing for the final hour of class in New London, Texas. A few minutes before the last bell, an undetected natural gas leak caused an explosion that completely destroyed the Consolidated High School and killed 294 of its students.

Для меня самая большая ценность статьи в агрегированной статистике и возможности ссылаться на нее, обсуждая и поднимая вопросы безопасности и надежности сложных технических систем. Картинки на эту самую статистику я прилагаю к посту, но статью рекомендую все-таки прочитать полностью, она небольшая.

Пара мыслей:
🟢Думаю, что статистика занижена. Как минимум не все любят делиться и стараются по возможности скрыть инциденты. К тому же, довольно сложно оценить всё влияние от аварий, например, в атомной отрасли. От последствий могут страдать несколько поколений людей, у всех разная степень восприятия воздействующих факторов, воздействие может быть долгосрочным и тд.
🟡Интересно посмотреть на вред окружающей среде, который нанесли инциденты и аварии в разных отраслях.
❓В статистику не попала Фукусима, а из 4067 людей погибших от ядерных катастроф — 4056 погибли из-за Чернобыльской, хотя всего зарегистрировано 63 инцидента.

👻Напоследок байка со времен учебы в бауманке на кафедре ядерных реакторов: говорят, что во время первой (из трех) катастрофы на АЭС -

Three Mile Island

(про которую, кстати, мало кто знает) умер только 1 человек — рыбак, который рыбачил в пруде-охладителе, услышал сирены на АЭС, испугался и получил сердечный приступ

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7👏6👻3❤1🔥1

2.3K views04:31

ИИ в промышленности по данным разных аналитических отчетов. Часть 2.1
Часть 1

С 2019 по 2022 гг центром компетенций НТИ по ИИ на базе МФТИ выпускался Альманах ИИ, включивший 12 аналитических сборников о состоянии ИИ в РФ и мире. Файлы можно скачать на сайте (у меня сайт с некоторого времени недоступен, поэтому делюсь сборниками в комментариях👇). Материалы очень рекомендую, но давайте сфокусируемся на ИИ в промышленности согласно этим отчетам, ведь я все за вас прочитал и выделил основные моменты.

курсив — обычно мои комментарии 💭

🔘

Более-менее подробная аналитика ИИ в промышленности встречается в 5 сборниках, главы:
• NLP — в промышленности и логистике
• Компьютерное зрение — в промышленности и логистике
• Предсказательная аналитика и СПР в промышленности
• Обучение с подкреплением в промышленности и логистике
• Deep RL в управлении крупными инженерными системами
• Переферийные граничные вычисления [Edge computing] (Много общей информации без углубления в особенности промышленности)

Дальше пройдемся по кейсам применения разных субтехнологий ИИ

🔘

Кейсы NLP
• диалоговые чат-боты для клиентского сервиса
• анализ тональности ответов на сообщения в почте и на порталах
• выделение именованных сущностей
• получение информации о рынке из новостей

🔘

Кейсы CV
• Контроль качества выпускаемой продукции (дефектоскопия), 2 типа: контроль полуготового материала и осмотр готовой продукции (можно выявлять 92-99% дефектов, при доле ложных срабатываний 3-4%=можно заменять человека)
• Промышленная безопасность: контроль СИЗ, контроль доступа, детекция аварийных ситуаций, мониторинг состояния персонала
• Контроль операций (определение и локализация движущихся объектов, транспортных средств, оборудования, людей+оптимизация операций)
• Цифровизация старого оборудования (когда оснащение датчиками экономически нецелесообразно)
• Роботы (новая область)
• Сценарии для горнодобывающей отрасли: автономный транспорт, включая автономизацию процесса добычи и погрузки материала, оценка параметров руды (средний рост добычи 3-4%), детекция зубов ковша экскаватора (падение производительности на 1,3%), доступ в опасные зоны с помощью БПЛА
• Сценарии для металлургической отрасли: контроль качества материалов, определение микроструктуры, механических свойств и поиск новых материалов, выявление загрязнения стали нежелательными минералами

🔘

2 явных тренда в развитии CV
• Распространение умных камер (edge)
• Появление услуг облачного CV (сомнительно в российской промышленности)

🔘

Задачи (направления), решаемые ИИ в промышленности
• Предсказание спроса
• Оценка риска и предиктивное обслуживание
• Ранее обнаружение аномалий в тех процессе
• Ценообразование
• Логистика
• Контроль качества
• Технологические процессы (оптимизация, советчики, управление)

RL, особенности и мои мысли в следующем посте ➡️

Please open Telegram to view this post

VIEW IN TELEGRAM

👨‍💻Популярность ИИ в промышленности по данным разных аналитических отчетов

В начале своих обзорных докладов и лекций стараюсь дать оценку места Промышленности среди остальных отраслей экономики.
tl;dr: популярность ИИ и ML в промышленности далека от ритейла…

🔥23👍8❤4🙏2

2.15K viewsedited 07:03

ИИ в промышленности по данным разных аналитических отчетов. Часть 2.2
Часть 2.1

🔘

Примеры решения задач с помощью RL
• Проектирование: оптимизация компоновки инженерных систем
• Энергетика: оптимизация затрат электроэнергии (на 40%) на охлаждение ЦОД, оптимизация управления для повышение производительности (на 3,5 МВт) газовых турбин
• Логистика: управление складскими роботами (отсутствие необходимости перепрограммирования роботов на каждый вид операции)
• Нефть и газ: оптимизация процессов бурения (ускорение бурения и снижения износа бурового оборудования) и эксплуатации скважин
• Металлургия: управление скоростью для повышения производительности (на 1,5%) непрерывно-травильного агрегата (ссылка на научную статью)
• Горнообогатительный комплекс: оптимизация потоков со сгустителей в итоговый концентрат (youtube)
• Есть облачные сервисы с алгоритмами, включая RL, интегрирующиеся в промышленными симуляционными средами.
При наличии разработанной симуляционной среды использование облачного сервиса является наименее затратным вариантом для применения RL

🔘

Сложности внедрения RL в промышленность
• Для обучения алгоритмов необходимы высокоточные симуляционные среды оптимизируемого процесса (либо дорого, либо просто нет). Внедрение становится нерентабельным
• В промышленности необходимы гарантии безопасности и интерпретируемость, чего RL не дает
• Высокие требования к вычислительным ресурсам и квалификации разработчиков алгоритмов
• Даже самые современные алгоритмы RL довольно "хрупкие"
• При разработке систем управления на основе алгоритмов RL возникают проблемы: обучения управлению на малых выборках, объяснимость решений, скорость работы в режиме реального времени, работа с задержками в передаче данных и реализации управляющих воздействий

🔘

Особенности развития ИИ в промышленности
• DNN набирают популярность, но традиционные подходы используются чаще
• Интерес к RL растет, но сложности внедрения сильно мешают
• Нефтегазовая отрасль и энергетика готовы к RL (но успешных кейсов почти нет)
• Разная автоматизация активов тормозит процессы внедления ML
• Большинство проектов на экспериментальной стадии (на 2020 г)
• Некоторые стартапы - пионеры отрасли

💭

Мои мысли или чего мне на хватило?
• Лучшие сборники с точки зрения промышленности - CV и RL, обе главы в RL рекомендую прочитать (речь про теоретическую разработку и применение RL). Прочитав сборник о предиктивке и СПР, расстроился глубине и объему материала
• Мне не хватило количественных оценок, статистики
• Иногда не совсем понятна степень распространенности технологии именно в промышленной эксплуатации, интересно было бы разделять информацию на продакшн и исследовательские истории (хотя понимаю, что провести такой анализ - это большая и сложная работа)
• На мой взгляд промышленность имеет свои особенности, например, данные, инфобез, интеграция, которые можно было бы затронуть или раскрыть подробнее
• Еще одной особенностью промышленности является большая история работы с моделями (физическими), с данными и наличие традиционных теорий (управления, надежности), которые оченб часто применяются в связке с ML. Об этом было бы интересно почитать
• Очень мало информации о задаче управления процессом, как в режиме советчика, так и в режиме автоматического управления (apc)
• Можно было бы дополнить информацией об эффектах при решении задач, а также о тестировании решений в промышленности (пилотные испытания, а/б тесты со своими особенностями)

Please open Telegram to view this post

VIEW IN TELEGRAM

ИИ в промышленности по данным разных аналитических отчетов. Часть 2.1
Часть 1

С 2019 по 2022 гг центром компетенций НТИ по ИИ на базе МФТИ выпускался Альманах ИИ, включивший 12 аналитических сборников о состоянии ИИ в РФ и мире. Файлы можно скачать на сайте…

👍19👏5❤2

2.31K views07:03

🗣

Анонс выступления

Что?
Доклад "Что не так с открытыми промышленными данными?"

Когда?
3 июля 2024 в 16:00 по мск

Где?
Онлайн конференция DataStart

О чем?
Уже не первый и даже не второй раз выступлю на конференции Datastart — приходите послушать. Доклад кажется похожим на ранее рассказанный на Datafest'е, но отличия будут! Хочу подробнее остановиться на проблемах датасетов с конкретными примерами из моей любимой области — поиска аномалий во временных рядах. Так что регистрируйтесь и приходите послушать! 🙂

P.S. Похоже, компенсирую недостаток постов в последнее время докладами на конференциях 🤹

Please open Telegram to view this post

VIEW IN TELEGRAM

Конференция Data Science 2024

Обучающие конференции по Data Science в

Москве и Санкт-Петербурге. Программа мероприятий содержит актуальные темы по Big Data,

Machine Learning, AI. Практические занятия позволят лучше усвоить полученные

на мероприятии знания.

👍8🔥8👏4🤝2

2.51K viewsedited 08:04

ИИ в промышленности по данным разных аналитических отчетов. Часть 3
Части 1, 2.1, 2.2

Раз уж я периодически разбираю отчеты и планирую продолжать это делать, то стоит упомянуть кривую хайпа от Gartner. 📈

📉

Первая картинка из аналитического сборника №7 (RL) альманаха ИИ. Актуальна на декабрь 2020 г.
Кривая хайпа демонстрирует цикл зрелости технологий (не слышал про нее, наверно, только ленивый).

Я не из тех, кто постоянно за ней следит, хотя кривая обновляется ежегодно. Более того, доступны версии по областям знаний, индустриям и тд. Периодически интересно узнать, ~~куда мы катимся~~ куда развивается ИИ и какова текущая зрелость технологий. Поэтому интересной может так же быть вторая картинка — это конкретная кривая в разрезе управления производством. Если хочется детально разобраться, что стоит за тем или иным термином-баззвордом, то стоит обратиться к отчетам Gertner или аналитическим обзорам на их основе.

Из интересного:
🔘Во-первых, ИИ и МЛ все-таки разные технологии (вдруг вы привыкли взаимозаменять термины, как я).
🔘Можно проследить как между картинками (за 3 года) машинное обучение и цифровые двойники перешли в следующие стадии.
Надеюсь, машинное обучение уже скоро станет привычным инструментом на производствах. Болею за нее, как за понятную и осязаемую для меня технологию!

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👏5👍4❤‍🔥1

2.2K views05:02

aldrich2013.pdf

Douglas_C._Montgomery-Introduction_to_st.pdf

FDD chiang2001.pdf

📚Хочу поделиться тремя книгами, которые помогли мне на ранних стадиях погружения в промышленный МЛ и в техническую диагностику в частности.

🔴

“Introduction to STATISTICAL QUALITY CONTROL”
На мой взгляд, это наиболее полная книга по классическим статистическим методам анализа процессов, включая контрольные карты. В ней подробно изложена необходимая математическая база и описано множество нюансов, таких как локализация проблемных сигналов для метода Хотеллинга, которые раньше приходилось искать в десятках разных статей и собирать по крупицам. Здесь же все собрано в одном месте! К тому же книга очень легко читается.

🟡

“Unsupervised Process Monitoring and Fault Diagnosis with Machine Learning Methods“
В этой книге подробно рассматривается множество базовых концептов и подходов в диагностике, сопровождаясь математическими выкладками. Описано большое количество используемых методов: от простых статистических методов анализа до машинного обучения и более сложных алгоритмов.

🔵

“Fault Detection and Diagnosis in Industrial Systems”
Эта книга более компактная по сравнению с предыдущими: меньше материала и методов. Однако она оказалась для меня очень полезной, так как содержит все основные концепты и методы, минимум лишнего и множество практических примеров (на данных Tennessee Eastman Process).

💭 Для получения базовых знаний эти книги подходят лучше большинства научных статей и доступных в интернете материалов, но многих современных методов там, конечно, нет. Нет там и очень глубокого погружения в различные домены, а также в некоторые важные направления диагностики, типа диагностики электротехнического оборудования или диагностики вращающихся частей. Для этого нужна более специализированная литература, хотя это уже скорее не про ML.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥38👍13❤4⚡3🆒1

2.78K views05:03