DataWorkshop - AI & ML – Telegram
DataWorkshop - AI & ML
1.91K subscribers
204 photos
22 videos
13 files
150 links
Онлайн-обучение от европейской компании DataWorkshop.

Курсы по: Статистике, SQL, Python, Data Science, Нейронным сетям, Time Series, NLP.

Корпоративное обучение.

Помогаем внедрять машинное обучение в бизнес.

Сайт:
https://dataworkshop.ru
Download Telegram
Недавно завершился хакатон, который мы проводили в Польше для телекоммуникационной компании - Orange 🥳.

Вызов приняли около 200 сотрудников компании, образовали 37 команд и в течение 2-х недель создавали модели ML для решения конкретных бизнес задач своей компании.

Обычно такие крупные компании, как Orange, сотрудничают только с крупными игроками (нп. McKinsey 😎), но DataWorkshop на своем примере показывает - если ты создаешь ценность, твои услуги всегда будут востребованы.

Впереди у нас с Orange новые проекты, но и вам скучать мы не дадим 🙂.

Уже завтра начинается наш 4-х дневный интенсив по прогнозированию цен на недвижимость в Варшаве🦾

Бесплатных мест уже не осталось. Но цена для участия все еще остается символической, которая покроет (даже не покроет 😬) затраты на серверы.

На таких интенсивах получаете возможность перенять опыт, который используется даже в крупных компаниях мира.

Автор всех наших образовательных программ - Владимир, с опытом 14+ лет в европейских и американских компаниях 💪
8👍3
Flask - это веб-фреймворк для создания веб-приложений и API. У него есть много интересных функций, таких как:
url routing (маршрутизация URL-адресов)
template engine (механизм шаблонов) и др.

Изначально Flask создал австрийский разработчик Армин Ронахер в 2010 году (в качестве первоапрельской шутки 🙈).

🤓 ​​Несмотря на шуточное происхождение, фреймворк Flask стал бешено популярным как альтернатива проектам Django с их монолитной структурой и зависимостями.

Flask позволяет:
👉 деплоить свой код
👉 интегрировать веб-API для создания более широкой функциональности.

Flask - это микрофреймворк, но это не значит, что все ваше приложение должно быть внутри одного файла Python.

Микро означает, что:
1️⃣ среда Flask проста, но расширяема
2️⃣ в комплекте нет набора инструментов и библиотек, но их можно установить

🔥🔥Flask — одна из самых популярных веб-платформ, что означает, что она актуальна и современна. Вы можете легко расширить ее функциональность, а также масштабировать для сложных приложений.
👍8
API (Application Programming Interface) - это программный интерфейс приложения.

В контексте API слово «приложение» относится к любому ПО, а "интерфейс" можно рассматривать как контракт между двумя приложениями, который определяет, как они взаимодействуют друг с другом. Используются запросы и ответы.

Можно рассмотреть это по аналогии:
клиент, официант и повар, где:
клиент - это приложение1 , официант - API, а повар - приложение2.


Примеры по использованию API:
👉 Быстрый способ регистрации на сайтах с помощью своего аккаунта в соц.сетях.
👉 Покупаете на сайте билеты в кино, на самолет и т.д.
👉 Смотрите прогноз погоды в приложении вашего телефона
👉 Смотрите ролик YouTube не в YouTube
👉 Встроенная форма записи к врачу через Google Календарь .

Для чего используют API:
🔥 Для упрощения и ускорения разработки своих продуктов (используя уже что-то ранее созданное).
🔥 Чтобы сделать разработку более безопасной
🔥 Развивать свои приложения, предоставляя услуги через API и др.
👍5
🤖 Жизненный цикл моделей машинного обучения можно определять по-разному, вот один из примеров:

1️⃣Gathering data (сбор данных)
2️⃣Data preparation (подготовка данных)
3️⃣Data Wrangling (обработка данных)
4️⃣Data Analysis (анализ данных)
5️⃣Train Model (тренировка/обучение модели ML)
6️⃣Test Model (тестирование модели ML)
7️⃣Deployment (развертывание/внедрение модели)

Каждый пункт подробно рассмотрим в следующих постах.
7-й пункт, внедрение модели в продакшн, один из самых сложных.
А большинство моделей ML так и остаются на этапе обучения 😱.

В нашем DW Club сегодня стартовал 2-х дневный интенсив, на котором как раз и затронется тема - Deployment👌 . Материалы этого интенсива и 10+ других останутся на вашем аккаунте на все время подписки в клубе 🙂.

Deployment - это полезная, интересная, очень важная и
сложная тема, но обязательная для всех, кто планирует связать свою жизнь с Data Science ❤️.
6
А вам приходилось уже внедрять модели ML в продакшн?
Anonymous Poll
13%
Я уже все могу 🙂
19%
Даже боюсь пробовать 😱
68%
Буду учиться 👌
Gathering Data (Сбор данных) — это первый этап жизненного цикла машинного обучения. Целью этого шага является выявление и получение всех проблем, связанных с данными.

На этом этапе необходимо определить различные источники данных.

Возможные источники сбора данных:
базы данных
интернет ресурсы
различные файлы

Это один из важнейших этапов жизненного цикла. Количество и качество собранных данных будут определять эффективность выходных данных. Чем больше будет данных, тем точнее будет прогноз 💪.

Этот шаг включает в себя следующие задачи:
👉 Определение различных источников данных
👉 Сбор данных
👉 Интеграция данных, полученных из разных источников

После выполнения вышеуказанных задач, мы получаем согласованный набор данных, который будет использоваться на следующих этапах жизненного цикла машинного обучения 🤖.
👍5
Data Preparation (Подготовка данных)

☝️ На практике, качество итоговых моделей намного сильнее зависит от качества подготовленных данных, чем от выбора самой модели и её оптимизации.

После сбора данных нам необходимо подготовить их к дальнейшим шагам. На этапе подготовки данных мы помещаем наши данные в подходящее место и готовим их для использования в машинном обучении.

На этом этапе сначала мы объединяем все данные, а затем рандомизируем их порядок.

Этот шаг можно разделить на два процесса:

1️⃣ Исследование данных:
Он используется для понимания природы данных, с которыми нам приходится работать. Нам необходимо понимать:
​​ характеристики данных,
формат данных
качество данных.

Лучшее понимание данных приводит к эффективному результату. При этом мы находим:
💪 корреляции
💪 общие тенденции
💪 выбросы.

2️⃣ Предварительная обработка данных для их анализа.
👍11🔥3🤔2
Ожидания и реальность в Data Science 😎

👩‍🎓 Что студенты думают о Data Science🧑‍🎓:
• прогон данных через алгоритмы

Что Data Science значит на практике (зависит еще конкретно от компании, но все же 😉):

☎️ общение/митинги с заказчиками

🧠 понимание чего хотят заказчики (тут не все так просто )

💪 преобразование пожеланий в практические действия

🤓 управление ожиданиями

🧑‍💻👩‍💻 сбор данных (как правило, чем больше данных, тем лучше результат)

🧹очистка данных (об этом еще поговорим в следующем посте)

🤖 прогон данных через алгоритмы (наконец-то!)

🦾 построение пайплайнов обучения/логического вывода

🖥 написание документации

💃🕺 тимбилдинг
👍9
🧹 Data Wrangling (Обработка данных) — это процесс очистки и преобразования необработанных данных в пригодный для использования формат.

Только на основании качественных данных можно сделать качественный анализ и прогноз.

Собранные данные могут иметь различные проблемы, например:

Отсутствующие значения, которые не указаны, бессмысленны или не определены

Дублирующиеся данные

Недопустимые значения, которые лежат вне нужного диапазона

Орфографические ошибки, перестановка слов

Шум

Противоречивость информации и др.

Очистка данных - это обязательный шаг, потому что ценность данных определяется не только, и не столько объемами данных, сколько качеством собранной информации.

Существует много методов обработки, способных повысить качество данных, начиная от использования вручную написанных скриптов и заканчивая нейросетями 🤖.
🔥6
Есть шутка - 80% рабочего времени специалисты в DS тратят на очистку данных, а остальные 20% жалуются на это 🙈
Anonymous Poll
14%
Я с этим живу 😎
41%
Это не шутка 🙃
46%
Я все еще хочу в Data Science 🙂
3👍1
Нам нужно серьезно поговорить 😎
🔥6
Вы используете статистику в своей работе?
Anonymous Poll
62%
Да
12%
Нет
26%
Буду учить ее вместе с DataWorkshop
Если да, то какие инструменты используете? (Можно выбрать несколько ответов 🙂)
Anonymous Poll
80%
Python
14%
R
3%
SPSS (IBM)
50%
Microsoft Excel
12%
MATLAB (The Mathworks)
2%
SAS
2%
SAP
31%
Tableau/Power BI
1%
RapidMiner
1%
Minitab
Data Analysis (Анализ данных), как этап в машинном обучении, предусматривает анализ данных, которые ранее уже были очищены и подготовлены.

Цель этого шага:
Выбор аналитических методов/алгоритмов
Создание моделей машинного обучения
Проверка результата

В зависимости от поставленной задачи, мы выбираем алгоритмы для построения моделей машинного обучения, например:
👉 Регрессия
👉 Классификация
👉 Кластерный анализ
👉 Обнаружение аномалий и др.

🤓Обычно для любой проблемы существует несколько алгоритмов-кандидатов, которые можно использовать. Выбрать наиболее подходящий порой непросто, поэтому приходится прибегать к методам проб и ошибок.

☝️Кстати, чаще более важным, чем выбор алгоритма, является работа с признаками для конкретных данных. А разработка признаков (feature engineering) - это вообще отдельное искусство, которому мы много уделяем времени на наших обучающих программах.
👍9🔥1
На связи Владимир 🙂

Знаете ли вы, что статистика может быть полезна для извлечения ценности из данных (за которую компании хотят платить)?

🤖Я уже 5 лет веду свой авторский курс, практическое машинное обучение (1500+ студентов) и довольно часто возникают вопросы, можно ли было сделать подобное практическое введение в статистику?

🥳 С таким вопросом уже обратились сотни людей! У меня для вас хорошие новости, мы на финишной прямой.

Курс «Практическое введение в статистику» стартует 4 июля. Мало того, у вас есть возможность проверить, подходит ли вам способ обучения, а затем принять решение.

💻Получите первый урок из первого модуля бесплатно - все, что нужно сделать - это зарегистрироваться, затем мы настроим для вас среду и вы получите письмо с доступом, и можете действовать!

🔥Мало того, как только вы выполните задание, вы также получите бонус.
4
Статистика — неотъемлемая часть большого количества профессий. На курсе по статистике учим правильно понимать статистические термины, характеристики, и грамотно применять их на практике.

Для кого будет полезен курс?

📍 Для специалистов по работе с данными (Data Scientist-ы, аналитики, программисты, BI сп-ты и др.)

Сегодня многие компании начинают использовать data driven подход (принимать стратегические решения, опираясь на данные).

Чтобы решить проблемы, ответить на вопросы и наметить стратегию, нужно разобраться в данных. Статистика предлагает ряд инструментов для получения этих знаний.

📍 Для экономистов
Важно вовремя определить зоны роста в экономике одного предприятия и даже страны. Статистика позволяет структурировать массивы данных и составить анализ положения дел.

📍 Для маркетологов
Работающая стратегия в маркетинге основана на хорошо проанализированных данных о рынке и собственных клиентах и др.

Хочешь научиться грамотно работать с данными? Тогда ждем Тебя на курсе по статистике.
👍8