Все коммуникации во время онлайн-марафона будут проходить в Slack.
ВАЖНО:
1️⃣ Если ты до этого не был знаком с данным мессенджером - ничего страшного. Ниже указана ссылка по которой можно присоединиться к сообществу в Slack.
https://join.slack.com/t/dataworkshop-ru/shared_invite/zt-qv4hfwx3-1IMofo5fLM96GimM~krVaw
2️⃣ Удобнее будет скачать и использовать приложение Slack. Если у тебя его нет - ссылка, что указана выше, перенаправит тебя в браузер.
3️⃣ Видеоинструкция по работе в Slack - обязательно посмотри - https://youtu.be/tjiO3XfvBk0
4️⃣ Также прикрепляем инструкцию по Slack в виде pdf файла (упор в ней сделан на первый день марафона)
ВАЖНО:
1️⃣ Если ты до этого не был знаком с данным мессенджером - ничего страшного. Ниже указана ссылка по которой можно присоединиться к сообществу в Slack.
https://join.slack.com/t/dataworkshop-ru/shared_invite/zt-qv4hfwx3-1IMofo5fLM96GimM~krVaw
2️⃣ Удобнее будет скачать и использовать приложение Slack. Если у тебя его нет - ссылка, что указана выше, перенаправит тебя в браузер.
3️⃣ Видеоинструкция по работе в Slack - обязательно посмотри - https://youtu.be/tjiO3XfvBk0
4️⃣ Также прикрепляем инструкцию по Slack в виде pdf файла (упор в ней сделан на первый день марафона)
YouTube
slack intro
Твоя готовность к марафону 🎉
Anonymous Poll
76%
Жду пароль и ссылку для входа, чтобы завтра принять участие в марафоне, в Slack добавился (лась) 🙂
11%
Не могу добавиться в Slack ;(
14%
Не понимаю вобще - что нужно делать
👉Мы подготовили подробную пошаговую инструкцию "Правила игры" для участия в онлайн-марафоне DWthon.
В ней описаны важные организационные моменты и правила для всех участников марафона.
Также в данной инструкции описаны действия, которые помогут добавиться в Slack.💪🏻
Обязательно для ознакомления‼️
В ней описаны важные организационные моменты и правила для всех участников марафона.
Также в данной инструкции описаны действия, которые помогут добавиться в Slack.💪🏻
Обязательно для ознакомления‼️
Навыки после DWthon.pdf
618.3 KB
Онлайн-марафон Dwthon завершен 🎉 🏁. В прикрепленном файле можно посмотреть - какие навыки получили наши участники, которым удалось пройти все 5 дней марафона.
А совсем скоро откроется запись на онлайн-мастер-класс по прогнозированию цен на жилье в Москве.
А совсем скоро откроется запись на онлайн-мастер-класс по прогнозированию цен на жилье в Москве.
DataWorkshop запускает новый практический онлайн-интенсив: “Прогнозирование цен на квартиры в Москве с помощью инструментов Machine Learning 🦾”
Старт 3 июля, тренироваться будем 2 дня.
Важно - количество бесплатных мест, в этот раз, сильно ограничено - их всего лишь 100! 😱
А тема мастер-класса очень интересная 💥
Регистрируйся прямо сейчас, чтобы успеть забронировать место для себя - https://bit.ly/3gwDJZa
Во время мастер-класса:
✅ Ты получаешь идеальные условия для приобретения практических навыков в инструментах ML, на реальном примере.
✅ Ты получаешь доступ к авторским материалам от Владимира.
✅ Ты тренируешь свою модель машинного обучения.
✅ Ты анализируешь необработанные и реальные данные.
✅ Ты получаешь результат.
✅ Ты отрабатываешь полученные навыки в реальном конкурсе Kaggle.
Это не говоря о крутом окружении, которое уже сформировалось в Slack ❤️
Надеюсь, что теперь не осталось сомнений о необходимости принять участие в нашем интенсиве 😉 . Жду тебя!
Старт 3 июля, тренироваться будем 2 дня.
Важно - количество бесплатных мест, в этот раз, сильно ограничено - их всего лишь 100! 😱
А тема мастер-класса очень интересная 💥
Регистрируйся прямо сейчас, чтобы успеть забронировать место для себя - https://bit.ly/3gwDJZa
Во время мастер-класса:
✅ Ты получаешь идеальные условия для приобретения практических навыков в инструментах ML, на реальном примере.
✅ Ты получаешь доступ к авторским материалам от Владимира.
✅ Ты тренируешь свою модель машинного обучения.
✅ Ты анализируешь необработанные и реальные данные.
✅ Ты получаешь результат.
✅ Ты отрабатываешь полученные навыки в реальном конкурсе Kaggle.
Это не говоря о крутом окружении, которое уже сформировалось в Slack ❤️
Надеюсь, что теперь не осталось сомнений о необходимости принять участие в нашем интенсиве 😉 . Жду тебя!
dataworkshop.ru
Мастер-класс | Data Science | Наука о данных | Машинное обучение
А Ты будешь на нашем супер мастер-классе? ❤️
Anonymous Poll
62%
Даааааа, уже очень жду
26%
Постараюсь, очень интересно
12%
Хочу, но в этот раз не получается
🧠 Недавно завершился наш мастер-класс по прогнозированию цен на недвижимость в Москве.
Надеемся, что соревнование во время мастер-класса внесло свою изюминку, а дух соперничества (в хорошем смысле этого слова) мотивировал каждого участника улучшать свой результат 💪
🔥 Уже завтра, 8 июля в 19-00 по Москве, Киеву, Минску (в 18-00 по Варшаве) Владимир проведет вебинар с участниками из ТОП 5, которые поделятся своим опытом и расскажут, как им удалось добиться таких результатов.
А также будет важная информация от Владимира, которую нельзя пропускать 😉
Ссылка на трансляцию вебинара здесь https://bit.ly/3wkuwI1
Ждем Тебя, чтобы раскрыть все секреты 🧙
Надеемся, что соревнование во время мастер-класса внесло свою изюминку, а дух соперничества (в хорошем смысле этого слова) мотивировал каждого участника улучшать свой результат 💪
🔥 Уже завтра, 8 июля в 19-00 по Москве, Киеву, Минску (в 18-00 по Варшаве) Владимир проведет вебинар с участниками из ТОП 5, которые поделятся своим опытом и расскажут, как им удалось добиться таких результатов.
А также будет важная информация от Владимира, которую нельзя пропускать 😉
Ссылка на трансляцию вебинара здесь https://bit.ly/3wkuwI1
Ждем Тебя, чтобы раскрыть все секреты 🧙
YouTube
Подведение итогов мастер-класса по прогнозированию цен на недвижимость в Москве
Участники мастер-класса с результатами из ТОП 5 в Kaggle делятся своим опытом
Будешь завтра на вебинаре
Anonymous Poll
45%
Даа, интересно будет послушать
31%
Буду очень стараться
24%
Не получится в этот раз :(
Вчера участники с результатом из ТОП 5 поделились своим опытом и рассказали, как им удалось добиться таких результатов (спасибо им огромное за это 🙏)
Владимир также делился советами из своего большого практического опыта 💪
Если у Тебя вчера не получилось присутствовать во время живого вебинара - его можно посмотреть в записи https://bit.ly/3wkuwI1
Владимир также делился советами из своего большого практического опыта 💪
Если у Тебя вчера не получилось присутствовать во время живого вебинара - его можно посмотреть в записи https://bit.ly/3wkuwI1
YouTube
Подведение итогов мастер-класса по прогнозированию цен на недвижимость в Москве
Участники мастер-класса с результатами из ТОП 5 в Kaggle делятся своим опытом
🤖 Достижения, связанные с применением искусственного интеллекта (ИИ), поражают воображение. А задач, которые ИИ решает лучше человека, с каждым годом становится все больше.
Кейс из опыта DataWorkshop - наш студент перешел из профессионального игрока в покер на сторону создания ИИ 🦾
Сменить деятельность он решил после того, как в 2017 году узнал, что уже существует система ИИ - Libratus, которая одержала победу над лучшими профессионалами мира по игре в покер, опередив их со статистической значимостью в 99,98%.
🧐 И тут было над чем подумать - ведь игра в покер была единственным источником дохода для его семьи.
Сверхсила ИИ в том, что он умеет быстро искать лучшие комбинации среди миллионов вариантов, по определенным правилам, установленным людьми.
Хотя покер - это всего лишь игра, достижения Libratus нельзя недооценивать. Раньше блеф, переговоры и теория игр были недоступны для искусственных агентов, но все кардинально меняется, теперь ИИ используется для многих реальных сценариев.
🤖 👩 👨Вскоре за столом переговоров могут оказаться не только люди.
Искусственный интеллект – одно из ключевых направлений развития науки во всем мире. Область его применения, конечно, не ограничивается играми – скорее, это начальная точка для новых способов применения ИИ в реальной жизни.
💪 Сейчас наш студент работает Data Scientist-ом.
У него не было ни малейшего технического опыта. И даже создание и использование переменной для него казалось недостижимым космосом.
Но его целеустремленность + наши знания и опыт привели его к успеху 🥳
Это лишний раз доказывает, что нет ничего невозможного, было бы желание. А для остального есть обучающие программы от DataWorkshop 😉
Кейс из опыта DataWorkshop - наш студент перешел из профессионального игрока в покер на сторону создания ИИ 🦾
Сменить деятельность он решил после того, как в 2017 году узнал, что уже существует система ИИ - Libratus, которая одержала победу над лучшими профессионалами мира по игре в покер, опередив их со статистической значимостью в 99,98%.
🧐 И тут было над чем подумать - ведь игра в покер была единственным источником дохода для его семьи.
Сверхсила ИИ в том, что он умеет быстро искать лучшие комбинации среди миллионов вариантов, по определенным правилам, установленным людьми.
Хотя покер - это всего лишь игра, достижения Libratus нельзя недооценивать. Раньше блеф, переговоры и теория игр были недоступны для искусственных агентов, но все кардинально меняется, теперь ИИ используется для многих реальных сценариев.
🤖 👩 👨Вскоре за столом переговоров могут оказаться не только люди.
Искусственный интеллект – одно из ключевых направлений развития науки во всем мире. Область его применения, конечно, не ограничивается играми – скорее, это начальная точка для новых способов применения ИИ в реальной жизни.
💪 Сейчас наш студент работает Data Scientist-ом.
У него не было ни малейшего технического опыта. И даже создание и использование переменной для него казалось недостижимым космосом.
Но его целеустремленность + наши знания и опыт привели его к успеху 🥳
Это лишний раз доказывает, что нет ничего невозможного, было бы желание. А для остального есть обучающие программы от DataWorkshop 😉
❤1
6 самых странных корреляций
🔗 Корреляции ( correlation) - это связь между двумя переменными.
Машинное обучение хорошо “ловит” корреляции (НЕ причинно- следственные связи).
🤖 При этом важно понимать, что корреляция НЕ подразумевает причинно-следственной связи.
🧐 И это очень важно учитывать в машинном обучении - иначе можно ввести себя и других в заблуждение.
😀 Вот несколько забавных примеров корреляций:
❌ 1. Потребление мороженого ведет к убийству.
❌. 2. Пиратская нехватка привела к глобальному потеплению.
❌ 3. Использование Internet Explorer ведет к убийству.
❌ 4. Импорт мексиканских лимонов предотвращает гибель людей на дорогах.
❌ 5. Ожирение стало причиной долгового пузыря.
❌ 6. Facebook стал причиной долгового кризиса Греции.
🔗 Корреляции ( correlation) - это связь между двумя переменными.
Машинное обучение хорошо “ловит” корреляции (НЕ причинно- следственные связи).
🤖 При этом важно понимать, что корреляция НЕ подразумевает причинно-следственной связи.
🧐 И это очень важно учитывать в машинном обучении - иначе можно ввести себя и других в заблуждение.
😀 Вот несколько забавных примеров корреляций:
❌ 1. Потребление мороженого ведет к убийству.
❌. 2. Пиратская нехватка привела к глобальному потеплению.
❌ 3. Использование Internet Explorer ведет к убийству.
❌ 4. Импорт мексиканских лимонов предотвращает гибель людей на дорогах.
❌ 5. Ожирение стало причиной долгового пузыря.
❌ 6. Facebook стал причиной долгового кризиса Греции.
Недавно появилась новость о том, что с 17 августа 2021 приложения и службы Microsoft 365 прекратят поддержку браузера Internet Explorer.
Исходя из предыдущего поста (п.3) - значит ли это, что количество убийств должно снизиться в ближайшем будущем? 🤔
Исходя из предыдущего поста (п.3) - значит ли это, что количество убийств должно снизиться в ближайшем будущем? 🤔
Anonymous Poll
7%
Конечно
36%
Мир однозначно станет чуточку лучше
36%
Это напрямую не связано
20%
Я еще не знаю, но хочу разобраться с помощью DataWorkshop ;)
Уже совсем скоро - 2 августа стартует второй выпуск нашего онлайн-интенсива Dwthon 🥳
На первый выпуск мы собрали более 1000 заявок, а на второй - уже тоже приближаемся к 1000, и заявки продолжают поступать 🔥
Ведь наш интенсив - это отличный шанс попробовать на практике прикоснуться к одному из ключевых направлений развития науки во всем мире - искусственному интеллекту. Причем - это БЕСПЛАТНЫЙ шанс.
🧠 Это будут интересные и насыщенные 5 дней по работе с реальными данными.
Мы создадим и потренируем модели машинного обучения, чтобы научиться на примере магазина из Великобритании решать конкретные бизнес задачи.
Даже если Тебе уже довелось принять участие в первом выпуске Dwthon, второй выпуск тоже стоит посетить, потому что:
✅ дополнительная практика не помешает (повторение - мать учения)
✅ за выполненные задания мы подготовили новые бонусы для каждого дня DWthon
✅ получишь порцию новых идей среди единомышленников
✅ получишь шанс пройти до конца весь интенсив, если не удалось это сделать в первый раз
✅ при условии выполнения всех заданий, получишь не только именной электронный сертификат об успешном прохождении, но и выгодные условия по приобретению наших онлайн-курсов, которые стартуют уже этой осенью.
Ссылка для записи на интенсив - https://bit.ly/3rGxVQP (для тех, кто еще не записался).
А сейчас приглашаем присоединиться к нашему сообществу в Slack по ссылке https://bit.ly/3BPSXkM и в канале #networking буквально пару слов рассказать о себе 🤗
Slack - это не просто сообщество - это мощный поток вдохновения, мотивации и взаимопомощи среди единомышленников. И все коммуникации во время интенсива будем вести именно в Slack.
А еще Slack - это инструмент для развития основных навыков 21 века (принцип 4к):
критическое мышление
креативность
коммуникация
кооперация
Эти навыки очень высоко ценятся среди работодателей!
При наличии вопросов/проблем с доступом к Slack - просьба писать на hello@dataworkshop.ru.
На первый выпуск мы собрали более 1000 заявок, а на второй - уже тоже приближаемся к 1000, и заявки продолжают поступать 🔥
Ведь наш интенсив - это отличный шанс попробовать на практике прикоснуться к одному из ключевых направлений развития науки во всем мире - искусственному интеллекту. Причем - это БЕСПЛАТНЫЙ шанс.
🧠 Это будут интересные и насыщенные 5 дней по работе с реальными данными.
Мы создадим и потренируем модели машинного обучения, чтобы научиться на примере магазина из Великобритании решать конкретные бизнес задачи.
Даже если Тебе уже довелось принять участие в первом выпуске Dwthon, второй выпуск тоже стоит посетить, потому что:
✅ дополнительная практика не помешает (повторение - мать учения)
✅ за выполненные задания мы подготовили новые бонусы для каждого дня DWthon
✅ получишь порцию новых идей среди единомышленников
✅ получишь шанс пройти до конца весь интенсив, если не удалось это сделать в первый раз
✅ при условии выполнения всех заданий, получишь не только именной электронный сертификат об успешном прохождении, но и выгодные условия по приобретению наших онлайн-курсов, которые стартуют уже этой осенью.
Ссылка для записи на интенсив - https://bit.ly/3rGxVQP (для тех, кто еще не записался).
А сейчас приглашаем присоединиться к нашему сообществу в Slack по ссылке https://bit.ly/3BPSXkM и в канале #networking буквально пару слов рассказать о себе 🤗
Slack - это не просто сообщество - это мощный поток вдохновения, мотивации и взаимопомощи среди единомышленников. И все коммуникации во время интенсива будем вести именно в Slack.
А еще Slack - это инструмент для развития основных навыков 21 века (принцип 4к):
критическое мышление
креативность
коммуникация
кооперация
Эти навыки очень высоко ценятся среди работодателей!
При наличии вопросов/проблем с доступом к Slack - просьба писать на hello@dataworkshop.ru.
dataworkshop.ru
DWthon - онлайн практикум по машинному обучению с нуля
DWthon - создай свою первую модель машинного обучения за 5 дней
Важные этапы в машинном обучении.
В машинном обучении существует множество этапов:
✔ выбор алгоритмов
✔ подбор параметров (тюнинг) для модели машинного обучения
✔ даже поиск аномалий и др.
Но важно приобрести навыки в следующих этапах:
✅ Инженерия признаков (Future engineering)
✅ Валидация модели
✅ Интерпретация модели
Почему именно эти 3 этапа являются важными?
Дело в том, что именно эти этапы нельзя автоматизировать полностью.
Многие новички очень часто совершают ошибки - посвящают много времени для работы с теми этапами, которые уже автоматизированы или могут быть автоматизированы.
Машина всегда работает лучше человека, если необходимо быстро выполнить какие-то повторяющиеся операции с большими данными. Например, перемножить 6-ти значные числа в долю секунды.
Человек же превосходит машину там, где данные небольшие и нужен нестандартный подход.
Этап "инженерию признаков" пытаются автоматизировать, но пока удается это сделать на очень примитивном уровне.
Поэтому для нас более интересны те этапы, которые не удалось полностью автоматизировать и где важна работа человека. На своих обучающих программах мы обращаем особое внимание именно на такие этапы в машинном обучении.
Благодаря этому Ты будешь более ценным и квалифицированным сотрудником и сможешь выделиться на фоне остальных 😉
В машинном обучении существует множество этапов:
✔ выбор алгоритмов
✔ подбор параметров (тюнинг) для модели машинного обучения
✔ даже поиск аномалий и др.
Но важно приобрести навыки в следующих этапах:
✅ Инженерия признаков (Future engineering)
✅ Валидация модели
✅ Интерпретация модели
Почему именно эти 3 этапа являются важными?
Дело в том, что именно эти этапы нельзя автоматизировать полностью.
Многие новички очень часто совершают ошибки - посвящают много времени для работы с теми этапами, которые уже автоматизированы или могут быть автоматизированы.
Машина всегда работает лучше человека, если необходимо быстро выполнить какие-то повторяющиеся операции с большими данными. Например, перемножить 6-ти значные числа в долю секунды.
Человек же превосходит машину там, где данные небольшие и нужен нестандартный подход.
Этап "инженерию признаков" пытаются автоматизировать, но пока удается это сделать на очень примитивном уровне.
Поэтому для нас более интересны те этапы, которые не удалось полностью автоматизировать и где важна работа человека. На своих обучающих программах мы обращаем особое внимание именно на такие этапы в машинном обучении.
Благодаря этому Ты будешь более ценным и квалифицированным сотрудником и сможешь выделиться на фоне остальных 😉
👉 Продолжая тему с корреляцией.
Говоря о “корреляции”, на самом деле обычно имеется в виду “линейная корреляция”.
И здесь часто возникает недопонимание.
🧬 Машинное обучение “улавливает” корреляции, но что самое важное - НЕ только линейные. Говоря простым языком, линейная корреляция - это очевидная корреляция (зависимость).
Пример - количество бензина в баке и кол-во километров, которые можно будет проехать. 10л - 100 км, 20л - 200км и т.д. Это пример положительной (линейной) корреляции. Если растет одно значение, то растет и второе.
А вот пример отрицательной корреляции - кол-во бензина в баке и кол-во километров, которые уже проехали. 100 км проехали - бензина на 10л. стало меньше, 200 км проехали - на 20 л. стало меньше. В этом случае тоже зависимость очевидная (линейная), но работает чуть иначе - одно значение растет, второе падает.
Коэффициент корреляции вычисляет силу связи между относительными движениями двух переменных. Значения коэффициента корреляции находятся в диапазоне от -1 до 1.
Если значение = -1, то это идеальная отрицательная корреляция, если 1, то идеально положительная.
Что значит идеальная корреляция? Например, если возьмем Твой рост в метрах и сантиметрах, здесь будет идеальная зависимость (математическое равенство).
Важно. 🙌
Если коэффициент корреляции = 0, то говорят, что корреляции нет. Но! Здесь важно понимать что это значит, что нет линейной (очевидной) корреляции, но может быть нелинейная!
Почему это важно понимать? Потому что большинство задач в нашем мире - это прежде всего нелинейные зависимости, а линейные, как правило, живут только в книгах по статистике и др.
🦾 Возьмем нижний ряд на картинке, видно, что зависимость есть (например, круг или другие фигуры), но эту зависимость нельзя описать при помощи линии (очевидной зависимости). Пример с фигурами показывает, что 0 - это НЕ значит отсутствие корреляции, а только отсутствие очевидных зависимостей.
🤖 Машинное обучение - это прежде всего о нелинейных корреляциях. Поэтому, пожалуйста, помни об этом, тогда быстрее научишься отличать теоретическую шелуху.
Говоря о “корреляции”, на самом деле обычно имеется в виду “линейная корреляция”.
И здесь часто возникает недопонимание.
🧬 Машинное обучение “улавливает” корреляции, но что самое важное - НЕ только линейные. Говоря простым языком, линейная корреляция - это очевидная корреляция (зависимость).
Пример - количество бензина в баке и кол-во километров, которые можно будет проехать. 10л - 100 км, 20л - 200км и т.д. Это пример положительной (линейной) корреляции. Если растет одно значение, то растет и второе.
А вот пример отрицательной корреляции - кол-во бензина в баке и кол-во километров, которые уже проехали. 100 км проехали - бензина на 10л. стало меньше, 200 км проехали - на 20 л. стало меньше. В этом случае тоже зависимость очевидная (линейная), но работает чуть иначе - одно значение растет, второе падает.
Коэффициент корреляции вычисляет силу связи между относительными движениями двух переменных. Значения коэффициента корреляции находятся в диапазоне от -1 до 1.
Если значение = -1, то это идеальная отрицательная корреляция, если 1, то идеально положительная.
Что значит идеальная корреляция? Например, если возьмем Твой рост в метрах и сантиметрах, здесь будет идеальная зависимость (математическое равенство).
Важно. 🙌
Если коэффициент корреляции = 0, то говорят, что корреляции нет. Но! Здесь важно понимать что это значит, что нет линейной (очевидной) корреляции, но может быть нелинейная!
Почему это важно понимать? Потому что большинство задач в нашем мире - это прежде всего нелинейные зависимости, а линейные, как правило, живут только в книгах по статистике и др.
🦾 Возьмем нижний ряд на картинке, видно, что зависимость есть (например, круг или другие фигуры), но эту зависимость нельзя описать при помощи линии (очевидной зависимости). Пример с фигурами показывает, что 0 - это НЕ значит отсутствие корреляции, а только отсутствие очевидных зависимостей.
🤖 Машинное обучение - это прежде всего о нелинейных корреляциях. Поэтому, пожалуйста, помни об этом, тогда быстрее научишься отличать теоретическую шелуху.
👍1
Правила игры на интенсиве DWthon.pdf
636.9 KB
Уже через 2 дня (2 августа) стартует 2 выпуск нашего легендарного онлайн-интенсива DWthon 🥳
А теперь ОЧЕНЬ ВАЖНЫЙ момент - перед началом интенсива необходимо ознакомиться с правилами игры и следовать инструкциям из прикрепленного файла!
Все вопросы по предстоящему интенсиву направлять сюда - hello@dataworkshop.ru
До встречи на интенсиве - впереди увлекательное погружение в машинное обучение, после которого Твоя жизнь уже не будет прежней 😉
А теперь ОЧЕНЬ ВАЖНЫЙ момент - перед началом интенсива необходимо ознакомиться с правилами игры и следовать инструкциям из прикрепленного файла!
Все вопросы по предстоящему интенсиву направлять сюда - hello@dataworkshop.ru
До встречи на интенсиве - впереди увлекательное погружение в машинное обучение, после которого Твоя жизнь уже не будет прежней 😉
5-дневный интенсив по машинному обучению стартовал 🔥
Информация с доступом к материалам и заданиям - уже на почте (тем, кто регистрировался сегодня - письмо немного позже придет).
Ждем Тебя 🙂
Информация с доступом к материалам и заданиям - уже на почте (тем, кто регистрировался сегодня - письмо немного позже придет).
Ждем Тебя 🙂
Метрики успеха.
Что значат метрики успеха в машинном обучении?
Часто можно услышать, что это некий критерий качества модели.
Давай рассмотрим это на более простом примере.
Сейчас в Токио проходит олимпиада, где есть конкретные спортсмены, которые выполняют конкретную программу и есть судьи, которые оценивают выполнение этой программы.
Благодаря оценке от судей можно понять - кто из спортсменов выиграл.
Модели машинного обучения - это те же "спортсмены", например у нас есть:
✅ модель А
✅ модель B
✅ модель C
и нам нужно решить - какая из моделей работает лучше.
А метрики успеха - это "судьи".
И здесь важно понимать, что в машинном обучении, как и зачастую в жизни - нет такого понятия, как правильное решение. Т.е. это может быть правильным решением в каком-то контексте. Контекст очень важен!
Мы стремимся оптимизировать/максимизировать какой-то один конкретный параметр (их может быть и больше). Но нельзя оптимизировать все параметры сразу.
Как пример - у нас есть задача классификации - определение “мошеннических” транзакций в банке. Какие здесь могут быть проблемы:
❌ мы можем считать все транзакции “мошенническими” и тогда страдают все клиенты, а затем уходят с этого банка (зачем нужен банк, через который невозможно выполнить ни одной транзакции)
❌ мы можем считать, что мошенников вообще не существует и это в будущем может повлечь для банка огромные потери и даже банкротство.
У нас есть 2 вида метрик успеха:
1️⃣ Метрика полноты (recall) - она всеми усилиями выявляет все мошеннические транзакции. Но на самом деле банку не сильно это оплачивается. Ведь может оказаться, что все транзакции - мошеннические.
2️⃣ Метрика точности (precision). В данном случае применять эту метрику - более правильное решение. Если банк находит мошенническую транзакцию - есть большая вероятность, что транзакция, действительно, мошенническая. И если банк блокирует такую транзакцию - он уже уверен, что никого из своих клиентов не обидит. Т.к. здесь уже вероятность ошибки может быть 1 раз на 1000 случаев.
Подытожим.
Метрика успеха очень важна. Есть классические метрики успеха.
Но еще очень важно понимать, что люди, которые называются Senior Data Scientist 😎
- не стесняются выдумывать свои метрики успеха, хорошо заточенные именно под бизнес проблемы.
Понимать стандартные метрики - это хорошо, но тоже важно понимать суть метрики, что это как компас и благодаря метрике
Ты достигаешь заданную цель. И иногда нужно "заточить" какую-то свою метрику под конкретные проблемы.
Что значат метрики успеха в машинном обучении?
Часто можно услышать, что это некий критерий качества модели.
Давай рассмотрим это на более простом примере.
Сейчас в Токио проходит олимпиада, где есть конкретные спортсмены, которые выполняют конкретную программу и есть судьи, которые оценивают выполнение этой программы.
Благодаря оценке от судей можно понять - кто из спортсменов выиграл.
Модели машинного обучения - это те же "спортсмены", например у нас есть:
✅ модель А
✅ модель B
✅ модель C
и нам нужно решить - какая из моделей работает лучше.
А метрики успеха - это "судьи".
И здесь важно понимать, что в машинном обучении, как и зачастую в жизни - нет такого понятия, как правильное решение. Т.е. это может быть правильным решением в каком-то контексте. Контекст очень важен!
Мы стремимся оптимизировать/максимизировать какой-то один конкретный параметр (их может быть и больше). Но нельзя оптимизировать все параметры сразу.
Как пример - у нас есть задача классификации - определение “мошеннических” транзакций в банке. Какие здесь могут быть проблемы:
❌ мы можем считать все транзакции “мошенническими” и тогда страдают все клиенты, а затем уходят с этого банка (зачем нужен банк, через который невозможно выполнить ни одной транзакции)
❌ мы можем считать, что мошенников вообще не существует и это в будущем может повлечь для банка огромные потери и даже банкротство.
У нас есть 2 вида метрик успеха:
1️⃣ Метрика полноты (recall) - она всеми усилиями выявляет все мошеннические транзакции. Но на самом деле банку не сильно это оплачивается. Ведь может оказаться, что все транзакции - мошеннические.
2️⃣ Метрика точности (precision). В данном случае применять эту метрику - более правильное решение. Если банк находит мошенническую транзакцию - есть большая вероятность, что транзакция, действительно, мошенническая. И если банк блокирует такую транзакцию - он уже уверен, что никого из своих клиентов не обидит. Т.к. здесь уже вероятность ошибки может быть 1 раз на 1000 случаев.
Подытожим.
Метрика успеха очень важна. Есть классические метрики успеха.
Но еще очень важно понимать, что люди, которые называются Senior Data Scientist 😎
- не стесняются выдумывать свои метрики успеха, хорошо заточенные именно под бизнес проблемы.
Понимать стандартные метрики - это хорошо, но тоже важно понимать суть метрики, что это как компас и благодаря метрике
Ты достигаешь заданную цель. И иногда нужно "заточить" какую-то свою метрику под конкретные проблемы.