NEW BOT Телеграм, страница

DataWorkshop - AI & ML

Важные этапы в машинном обучении.

В машинном обучении существует множество этапов:
✔ выбор алгоритмов
✔ подбор параметров (тюнинг) для модели машинного обучения
✔ даже поиск аномалий и др.

Но важно приобрести навыки в следующих этапах:
✅ Инженерия признаков (Future engineering)
✅ Валидация модели
✅ Интерпретация модели

Почему именно эти 3 этапа являются важными?
Дело в том, что именно эти этапы нельзя автоматизировать полностью.

Многие новички очень часто совершают ошибки - посвящают много времени для работы с теми этапами, которые уже автоматизированы или могут быть автоматизированы.

Машина всегда работает лучше человека, если необходимо быстро выполнить какие-то повторяющиеся операции с большими данными. Например, перемножить 6-ти значные числа в долю секунды.

Человек же превосходит машину там, где данные небольшие и нужен нестандартный подход.

Этап "инженерию признаков" пытаются автоматизировать, но пока удается это сделать на очень примитивном уровне.

Поэтому для нас более интересны те этапы, которые не удалось полностью автоматизировать и где важна работа человека. На своих обучающих программах мы обращаем особое внимание именно на такие этапы в машинном обучении.

Благодаря этому Ты будешь более ценным и квалифицированным сотрудником и сможешь выделиться на фоне остальных 😉

1.14K views17:16

DataWorkshop - AI & ML

👉 Продолжая тему с корреляцией.
Говоря о “корреляции”, на самом деле обычно имеется в виду “линейная корреляция”.
И здесь часто возникает недопонимание.

🧬 Машинное обучение “улавливает” корреляции, но что самое важное - НЕ только линейные. Говоря простым языком, линейная корреляция - это очевидная корреляция (зависимость).

Пример - количество бензина в баке и кол-во километров, которые можно будет проехать. 10л - 100 км, 20л - 200км и т.д. Это пример положительной (линейной) корреляции. Если растет одно значение, то растет и второе.

А вот пример отрицательной корреляции - кол-во бензина в баке и кол-во километров, которые уже проехали. 100 км проехали - бензина на 10л. стало меньше, 200 км проехали - на 20 л. стало меньше. В этом случае тоже зависимость очевидная (линейная), но работает чуть иначе - одно значение растет, второе падает.

Коэффициент корреляции вычисляет силу связи между относительными движениями двух переменных. Значения коэффициента корреляции находятся в диапазоне от -1 до 1.
Если значение = -1, то это идеальная отрицательная корреляция, если 1, то идеально положительная.

Что значит идеальная корреляция? Например, если возьмем Твой рост в метрах и сантиметрах, здесь будет идеальная зависимость (математическое равенство).

Важно. 🙌
Если коэффициент корреляции = 0, то говорят, что корреляции нет. Но! Здесь важно понимать что это значит, что нет линейной (очевидной) корреляции, но может быть нелинейная!

Почему это важно понимать? Потому что большинство задач в нашем мире - это прежде всего нелинейные зависимости, а линейные, как правило, живут только в книгах по статистике и др.

🦾 Возьмем нижний ряд на картинке, видно, что зависимость есть (например, круг или другие фигуры), но эту зависимость нельзя описать при помощи линии (очевидной зависимости). Пример с фигурами показывает, что 0 - это НЕ значит отсутствие корреляции, а только отсутствие очевидных зависимостей.

🤖 Машинное обучение - это прежде всего о нелинейных корреляциях. Поэтому, пожалуйста, помни об этом, тогда быстрее научишься отличать теоретическую шелуху.

👍1

1.38K viewsedited 09:58

DataWorkshop - AI & ML

1.4K views09:58

DataWorkshop - AI & ML

Правила игры на интенсиве DWthon.pdf

636.9 KB

Уже через 2 дня (2 августа) стартует 2 выпуск нашего легендарного онлайн-интенсива DWthon 🥳

А теперь ОЧЕНЬ ВАЖНЫЙ момент - перед началом интенсива необходимо ознакомиться с правилами игры и следовать инструкциям из прикрепленного файла!

Все вопросы по предстоящему интенсиву направлять сюда - hello@dataworkshop.ru

До встречи на интенсиве - впереди увлекательное погружение в машинное обучение, после которого Твоя жизнь уже не будет прежней 😉

1.64K viewsedited 16:22

DataWorkshop - AI & ML

5-дневный интенсив по машинному обучению стартовал 🔥
Информация с доступом к материалам и заданиям - уже на почте (тем, кто регистрировался сегодня - письмо немного позже придет).
Ждем Тебя 🙂

1.28K views09:19

DataWorkshop - AI & ML

Метрики успеха.
Что значат метрики успеха в машинном обучении?
Часто можно услышать, что это некий критерий качества модели.
Давай рассмотрим это на более простом примере.
Сейчас в Токио проходит олимпиада, где есть конкретные спортсмены, которые выполняют конкретную программу и есть судьи, которые оценивают выполнение этой программы.
Благодаря оценке от судей можно понять - кто из спортсменов выиграл.

Модели машинного обучения - это те же "спортсмены", например у нас есть:
✅ модель А
✅ модель B
✅ модель C
и нам нужно решить - какая из моделей работает лучше.
А метрики успеха - это "судьи".

И здесь важно понимать, что в машинном обучении, как и зачастую в жизни - нет такого понятия, как правильное решение. Т.е. это может быть правильным решением в каком-то контексте. Контекст очень важен!

Мы стремимся оптимизировать/максимизировать какой-то один конкретный параметр (их может быть и больше). Но нельзя оптимизировать все параметры сразу.

Как пример - у нас есть задача классификации - определение “мошеннических” транзакций в банке. Какие здесь могут быть проблемы:

❌ мы можем считать все транзакции “мошенническими” и тогда страдают все клиенты, а затем уходят с этого банка (зачем нужен банк, через который невозможно выполнить ни одной транзакции)
❌ мы можем считать, что мошенников вообще не существует и это в будущем может повлечь для банка огромные потери и даже банкротство.

У нас есть 2 вида метрик успеха:
1️⃣ Метрика полноты (recall) - она всеми усилиями выявляет все мошеннические транзакции. Но на самом деле банку не сильно это оплачивается. Ведь может оказаться, что все транзакции - мошеннические.

2️⃣ Метрика точности (precision). В данном случае применять эту метрику - более правильное решение. Если банк находит мошенническую транзакцию - есть большая вероятность, что транзакция, действительно, мошенническая. И если банк блокирует такую транзакцию - он уже уверен, что никого из своих клиентов не обидит. Т.к. здесь уже вероятность ошибки может быть 1 раз на 1000 случаев.

Подытожим.
Метрика успеха очень важна. Есть классические метрики успеха.
Но еще очень важно понимать, что люди, которые называются Senior Data Scientist 😎
- не стесняются выдумывать свои метрики успеха, хорошо заточенные именно под бизнес проблемы.

Понимать стандартные метрики - это хорошо, но тоже важно понимать суть метрики, что это как компас и благодаря метрике

Ты достигаешь заданную цель. И иногда нужно "заточить" какую-то свою метрику под конкретные проблемы.

1.19K viewsedited 14:42

DataWorkshop - AI & ML

🎉 DataWorkshop впервые открывает свои двери в DW Club 🎉

DW Club - это доступ к серверу с материалами 24/7 - обучайся тогда, когда Тебе удобно (хоть в новогоднюю ночь), где удобно (хоть из тайги, если словишь там интернет) и сколько удобно по времени (хоть 5 минут в день, хоть целый день).

Подписка на 1 месяц стоит 3 евро (эта цена действует только до конца воскресенья - 8 августа включительно), отказаться от подписки можно в любой момент.
Ссылка на подписку 👉 https://bit.ly/dwclub_join

А теперь подробнее, что получишь:

1️⃣ Снимаешь головную боль по установке и настройке ПО (получаешь доступ к готовому окружению, просто авторизуешься и получаешь практические навыки в машинном обучении).

2️⃣ Доступ к материалам 5-дневного интенсива DWthon по машинному обучению (на реальных данных магазина из Великобритании) на все время подписки в клубе.

3️⃣ Доступ к материалам мастер-класса “Прогнозирование цен на недвижимость в Москве”.
Состоит 3 шпаргалок, 5 стартеров + собранное в одном месте (вебинар с итогами конкурса лучших решений, 8 ссылок на лучшие решения, в том числе от участников из Польши).

4️⃣ До 23 августа появится новый материал “Прогноз выживания пассажира на Титанике” (это относительно легкая задача, но ее стоит проделать на первых этапах, особенно новичкам в машинном обучении) и опять же с подпиской на DW Club, сможешь изучать материалы в любое удобное время.

5️⃣ Новые материалы будут появляться регулярно - это только начало (минимум 1 новое решение в месяц)! Причем участники клуба могут путем голосования влиять на то, какие материалы будут появляться в первую очередь.

6️⃣ Участники клуба будут первыми узнавать о самых выгодных условиях приобретения курсов (иногда такие условия будут доступны только участникам клуба).

7️⃣ Студенты даже после завершения курса смогут иметь под рукой все материалы курса и при необходимости пользоваться ими (при действующей подписке на DW Club).

8️⃣ Участники клуба получат доступ к материалам международной конференции по машинному обучению (на английском языке), на которой выступали спикеры из мировых топ компаний: Facebook, DeepMind, Uber, Huawei, Microsoft и др.

9️⃣ Участники клуба будут первыми узнавать о возможности получить стажировку в нашей компании и об открытых вакансиях на должность специалиста с навыками по машинному обучению в компаниях-партнерах.

🔟 Участники клуба смогут получить доступ к демо версиям онлайн-курсов от DataWorkshop.

👉 Как стать участником DW Club?
Переходишь по ссылке 👉 https://bit.ly/dwclub_join >>> оплачиваешь 3 евро >>> автоматически становишься членом клуба.

Доступ открывается на период с 7 августа и до 8 сентября.
3 евро - это цена за подписку на DW Club на 1 месяц, по истечении месяца подписку нужно продлевать.

Кстати, 3 евро - это оооочень символическая оплата (постарайся успеть получить подписку на самых выгодных условиях), потому что ТОЛЬКО за маленький сервер в облаке заплатишь около 30 евро в месяц.

А мы предоставляем не просто доступ к серверу, а к структурированным знаниям, которые могут помочь прокачать Твои навыки и если все будешь делать правильно, сможешь начать карьеру в Data Science или в чем-то смежном.

1.25K views12:04

DataWorkshop - AI & ML

PEP20 - это правила Дзен Питон (python enhanced proposal — заявки на улучшение языка Питон) от Тима Петерсона, которые он предложил в 1999 году.

Причем автор предложил написать последнее правило создателю "Питона" Гвидо Ван Россуму (и оно до сих пор не заполнено и, возможно, автор тем самым хотел донести, что в любых правилах есть исключения).

Найти Zen of Python можно на официальном сайте по языку Python. Достаточно ввести команду import this в консольном приложении и на экране высветиться 19 правил на англ. языке (на фото).

Zen of Python на русском языке:
PEP20, а если быть точнее, то 19 правил по улучшению языка Питон:
1️⃣Красивое лучше уродливого.
2️⃣Явное лучше неявного.
3️⃣Простое лучше сложного.
4️⃣Сложное лучше запутанного.
5️⃣Развернутое лучше вложенного.
6️⃣Разреженное лучше плотного.
7️⃣Читаемость имеет значение.
8️⃣Особые случаи не настолько особые, чтобы нарушать правила.
9️⃣При этом практичность важнее безупречности.

1.01K views10:33

DataWorkshop - AI & ML

🔟Ошибки не должны замалчиваться.
1️⃣1️⃣Если не замалчиваются явно.
1️⃣2️⃣Встретив двусмысленность, отбрось искушение угадать.
1️⃣3️⃣Должен существовать один - и, желательно, только один – очевидный способ сделать что-то.
1️⃣4️⃣Хотя этот способ поначалу может быть и не очевиден, если вы не голландец.
1️⃣5️⃣Сейчас лучше, чем никогда.
1️⃣6️⃣Хотя никогда часто лучше, чем *прямо* сейчас.
1️⃣7️⃣Если реализацию сложно объяснить – идея точно плоха.
1️⃣8️⃣Если реализацию легко объяснить – возможно, идея хороша.
1️⃣9️⃣Пространства имен – отличная штука! Будем использовать их чаще!

1.03K views10:33

DataWorkshop - AI & ML

Мир меняется быстрее, чем Ты думаешь 🚀
Записал сегодня видео и хочу поделиться тем, какие изменения могут коснуться программистов уже в ближайшем будущем.

Спойлер: ты пишешь на простом языке, что хочешь сделать, а искусственный интеллект самостоятельно генерирует код 🤖

При этом хочу отметить, что
навыки машинного обучения будут все более востребованными 💪🦾

Ссылка на видео: https://bit.ly/3fTRj8f

Ссылка на полную версию видео от Open AI: https://bit.ly/2VL4h1g

YouTube

Будь в курсе событий ИИ - посмотри как меняется мир! (openai, copilot, codex, GPT-3)

OpenAI показывает следующий этап развития и новую модель Codex. Что это значит для Тебя?

OpenAI Codex Live Demo - https://www.youtube.com/watch?v=SGUCcjHTmGY

#GPT-3 #openai #copilot #codex

1.13K viewsedited 14:11

DataWorkshop - AI & ML

Как Ты думаешь - сильно ли изменится мир программирования в ближайшем будущем 🙂?

Anonymous Poll

183 voters1.13K views14:15

DataWorkshop - AI & ML

А вы знали, что роботы уже научились шутить над людьми? 😀

Технологии с каждым новым днем все более совершенствуются и то, что вчера казалось невозможным - сегодня уже становится реальностью.

Уже в наши дни можно общаться по телефону и не понимать, что на Твои вопросы отвечает робот, а не человек 🤖

Считается, что обработка текста и звучащей речи (NLP, Speech Analytics) – один из главных трендов 2021 года в сфере развития искусственного интеллекта.

NLP - это обработка естественного языка.
К этому направлению относится всё, что касается речевой аналитики, обработки и синтеза речи.

Простыми словами — это то, что позволяет людям и машинам общаться и взаимодействовать без посредников.

А для чего все это придумали? NLP — базовая технология, на основе которой можно создавать цифровые продукты. Благодаря NLP-технологиям сделаны такие разработки:
✅ «Умные» предметы обихода, которыми можно управлять с помощью голоса
✅ Чат-боты
✅ Siri, «Алиса»
✅ “Умный” спам-фильтр
✅ Классификатор сообщений
✅ Оценка пользовательских отзывов и запросов и др.

Всё это приводит к росту инвестиций, увеличению числа компаний и команд, и появлению большего числа Open Source-моделей.

А на онлайн-курсах DataWorkshop можно получить практические навыки и знания в работе с NLP.

Пока думаем над датой выпуска именно этого курса - он есть только на польском языке, но планируем сделать еще более улучшенную его версию и тогда уже перевести и на русский язык.

983 views15:14

DataWorkshop - AI & ML

Ждешь наш онлайн-курс? 🤗

Anonymous Poll

34%

Да, не то слово

57%

Хочу узнать программу курса

Буду думать

110 voters951 views15:15

DataWorkshop - AI & ML

🌏В последнее время (особенно после пандемии) все чаще можно услышать, что весь мир уходит в онлайн.

Что это значит? Перед людьми открываются невероятные возможности! По удаленке можно работать во многих компаниях мира.

А специалисты с навыками Machine Learning в западных странах мира пользуются просто огромной популярностью и востребованностью.

Работая по удаленке на компании “с Запада” и не только, как правило, нужен еще и английский язык. И мы решили пойти еще дальше.

🤖Поскольку наша компания фокусируется только на проектах по машинному обучению, мы решили найти такого же крутого партнера, но уже по обучению английскому.

🇺🇸Основное преимущество партнера - у них уже большой опыт преподавания английского для работников в сфере IT. Но вскоре расскажем более подробно обо всем.

🤝А пока просим пройти опрос, который поможет нашему партнеру лучше изучить ваши потребности в изучении английского языка.

Ссылка на опросник - https://bit.ly/3y3NbbS

1.13K viewsedited 12:09

DataWorkshop - AI & ML

Периодически нам приходят от вас вопросы - что почитать, особенно перед стартом курсов.

Хотим порекомендовать вот эти 2 книги, которые написал Жерон Орельен (их можно читать всем желающим, кто хочет начать изучать машинное обучение):

Прикладное машинное обучение с помощью Scikit-Learn, Keras TensorFlow.

Из этой книги узнаете основы машинного обучения на сквозном проекте с применением Scikit-Learn и Pandas, построите и обучите нейронные сети и др.

В каждой главе есть упражнения, которые помогут закрепить на практике полученные знания, причем весь код из книги доступен на GitHub.

Python Data Science Handbook
В этой книге можно поближе познакомиться с библиотеками Pandas, NumPy, Matplotlib, а также в ней есть отдельный блок, посвященный машинному обучению.

Эта книга бесплатная, вот ссылка - http://bit.ly/2UNA92t

Ребята - кто идет на наши курсы, предупреждаем - на курсах будет интенсивно и будет много дополнительной бесплатной информации - эти книги во время курсов некогда будет читать 🤗

1.13K views13:44

DataWorkshop - AI & ML

Рекомендовать в будущем литературу для чтения? 🤓

Anonymous Poll

156 voters1.06K views13:47

DataWorkshop - AI & ML

Python впервые за всю историю скоро может стать самым популярным языком программирования во всем мире. Ведь он уже почти догнал такие языки , как С и Java. 🦾

Согласно веб-сайту Stack Overflow, вопросы с тегом Python имеют максимальное количество просмотров в 2018 году в странах с высоким уровнем дохода. На первом фото виден огромный рост популярности языка Python за последние 5 лет.

Stack Overflow показывает, что с января 2016 года по август 2017 года темпы роста трафика Python увеличились на 27%. В то время как для JavaScript, C ++, Ruby, iOS и т. д. темпы роста снизились по сравнению с прошлыми несколькими годами.

TIOBE составляет рейтинг популярности языков программирования методом подсчета результатов поисковых запросов, связанных с программированием (результат на 2 фото).

У Python, похоже, есть все шансы стать номером один благодаря своему лидерству на рынке в быстро развивающейся области интеллектуального анализа данных и искусственного интеллекта», – сказал Янсен, ген. директор TIOBE.

1.15K views16:17

DataWorkshop - AI & ML

1.16K views16:17

DataWorkshop - AI & ML

1.23K views16:17

DataWorkshop - AI & ML

Напоминаю, что уже 6 сентября мы впервые запускаем курс "Практическое введение в Python для Data Science" - на русском языке.
Это необычный курс по Python.

Это мини-курс, который позволит в сжатые сроки получить навыки в Python для дальнейшего его применения в Machine Learning и Data Science.

Это мой авторский курc, в который я собрал только те материалы, которые действительно, используют в рабочих проектах.

Я придерживаюсь правила 20/80 (чтобы 20% усилий приносили 80% результата) и давать те навыки и знания, которые сразу можно применять на практике - в своей работе.

Ведь "засорить мозг ненужным" никогда не было проблемой - особенно сейчас - в век "информационного ожирения".

Я же учу тому, что действительно работает на практике и делюсь лучшими техниками, которые сам применяю в работе. А поделиться мне есть чем - свой многолетний опыт я получал в европейских и американских компаниях разного масштаба 😉.

С завтрашнего дня цена на курс повышается - успей его приобрести по старой цене.

Успей купить курс по старой цене:

>>> https://bit.ly/3BGUkky <<<

dataworkshop.ru

Практическое введение в Python | Data Science | Machine Learning

1.29K views09:37

DataWorkshop - AI & ML

DATAWORKSHOP-INSTAGRAM (3).png

56.3 KB

Владимир недавно записал подкаст со студентом со своего самого первого курса "Практическое машинное обучение с нуля" на тему: "Машинное обучение и кибербезопасность".

Сейчас Мирослав (наш студент) работает в "Santander Bank Polska" и использует искусственный интеллект для борьбы с киберпреступниками 😎.

Мирослав рассказал, как они построили модель машинного обучения (на основании 20000 транзакций, которые проходят за 1 банковский день), чтобы выловить из них мошеннические транзакции 🦸‍♂️

Что интересно - модели удается вылавливать 90% мошеннических транзакций. По рассказам Мирослава - бизнес ежедневно отсекает подозрительных 20-30 транзакций.

Дополнительная проверка таких транзакций показывает, что, действительно, ⅔ из них являются попыткой вымогательства 😮

Причем, используется довольно простая модель машинного обучения, но результаты впечатляют - не правда ли 😉

Подкаст записан на польском языке, но по ссылке можно почитать перевод на русском языке

https://bit.ly/3BRn4XU

1.3K viewsedited 10:51

About

Blog

Apps

Platform