DataWorkshop - AI & ML – Telegram
DataWorkshop - AI & ML
1.91K subscribers
204 photos
22 videos
13 files
150 links
Онлайн-обучение от европейской компании DataWorkshop.

Курсы по: Статистике, SQL, Python, Data Science, Нейронным сетям, Time Series, NLP.

Корпоративное обучение.

Помогаем внедрять машинное обучение в бизнес.

Сайт:
https://dataworkshop.ru
Download Telegram
А вам приходилось уже внедрять модели ML в продакшн?
Anonymous Poll
13%
Я уже все могу 🙂
19%
Даже боюсь пробовать 😱
68%
Буду учиться 👌
Gathering Data (Сбор данных) — это первый этап жизненного цикла машинного обучения. Целью этого шага является выявление и получение всех проблем, связанных с данными.

На этом этапе необходимо определить различные источники данных.

Возможные источники сбора данных:
базы данных
интернет ресурсы
различные файлы

Это один из важнейших этапов жизненного цикла. Количество и качество собранных данных будут определять эффективность выходных данных. Чем больше будет данных, тем точнее будет прогноз 💪.

Этот шаг включает в себя следующие задачи:
👉 Определение различных источников данных
👉 Сбор данных
👉 Интеграция данных, полученных из разных источников

После выполнения вышеуказанных задач, мы получаем согласованный набор данных, который будет использоваться на следующих этапах жизненного цикла машинного обучения 🤖.
👍5
Data Preparation (Подготовка данных)

☝️ На практике, качество итоговых моделей намного сильнее зависит от качества подготовленных данных, чем от выбора самой модели и её оптимизации.

После сбора данных нам необходимо подготовить их к дальнейшим шагам. На этапе подготовки данных мы помещаем наши данные в подходящее место и готовим их для использования в машинном обучении.

На этом этапе сначала мы объединяем все данные, а затем рандомизируем их порядок.

Этот шаг можно разделить на два процесса:

1️⃣ Исследование данных:
Он используется для понимания природы данных, с которыми нам приходится работать. Нам необходимо понимать:
​​ характеристики данных,
формат данных
качество данных.

Лучшее понимание данных приводит к эффективному результату. При этом мы находим:
💪 корреляции
💪 общие тенденции
💪 выбросы.

2️⃣ Предварительная обработка данных для их анализа.
👍11🔥3🤔2
Ожидания и реальность в Data Science 😎

👩‍🎓 Что студенты думают о Data Science🧑‍🎓:
• прогон данных через алгоритмы

Что Data Science значит на практике (зависит еще конкретно от компании, но все же 😉):

☎️ общение/митинги с заказчиками

🧠 понимание чего хотят заказчики (тут не все так просто )

💪 преобразование пожеланий в практические действия

🤓 управление ожиданиями

🧑‍💻👩‍💻 сбор данных (как правило, чем больше данных, тем лучше результат)

🧹очистка данных (об этом еще поговорим в следующем посте)

🤖 прогон данных через алгоритмы (наконец-то!)

🦾 построение пайплайнов обучения/логического вывода

🖥 написание документации

💃🕺 тимбилдинг
👍9
🧹 Data Wrangling (Обработка данных) — это процесс очистки и преобразования необработанных данных в пригодный для использования формат.

Только на основании качественных данных можно сделать качественный анализ и прогноз.

Собранные данные могут иметь различные проблемы, например:

Отсутствующие значения, которые не указаны, бессмысленны или не определены

Дублирующиеся данные

Недопустимые значения, которые лежат вне нужного диапазона

Орфографические ошибки, перестановка слов

Шум

Противоречивость информации и др.

Очистка данных - это обязательный шаг, потому что ценность данных определяется не только, и не столько объемами данных, сколько качеством собранной информации.

Существует много методов обработки, способных повысить качество данных, начиная от использования вручную написанных скриптов и заканчивая нейросетями 🤖.
🔥6
Есть шутка - 80% рабочего времени специалисты в DS тратят на очистку данных, а остальные 20% жалуются на это 🙈
Anonymous Poll
14%
Я с этим живу 😎
41%
Это не шутка 🙃
46%
Я все еще хочу в Data Science 🙂
3👍1
Нам нужно серьезно поговорить 😎
🔥6
Вы используете статистику в своей работе?
Anonymous Poll
62%
Да
12%
Нет
26%
Буду учить ее вместе с DataWorkshop
Если да, то какие инструменты используете? (Можно выбрать несколько ответов 🙂)
Anonymous Poll
80%
Python
14%
R
3%
SPSS (IBM)
50%
Microsoft Excel
12%
MATLAB (The Mathworks)
2%
SAS
2%
SAP
31%
Tableau/Power BI
1%
RapidMiner
1%
Minitab
Data Analysis (Анализ данных), как этап в машинном обучении, предусматривает анализ данных, которые ранее уже были очищены и подготовлены.

Цель этого шага:
Выбор аналитических методов/алгоритмов
Создание моделей машинного обучения
Проверка результата

В зависимости от поставленной задачи, мы выбираем алгоритмы для построения моделей машинного обучения, например:
👉 Регрессия
👉 Классификация
👉 Кластерный анализ
👉 Обнаружение аномалий и др.

🤓Обычно для любой проблемы существует несколько алгоритмов-кандидатов, которые можно использовать. Выбрать наиболее подходящий порой непросто, поэтому приходится прибегать к методам проб и ошибок.

☝️Кстати, чаще более важным, чем выбор алгоритма, является работа с признаками для конкретных данных. А разработка признаков (feature engineering) - это вообще отдельное искусство, которому мы много уделяем времени на наших обучающих программах.
👍9🔥1
На связи Владимир 🙂

Знаете ли вы, что статистика может быть полезна для извлечения ценности из данных (за которую компании хотят платить)?

🤖Я уже 5 лет веду свой авторский курс, практическое машинное обучение (1500+ студентов) и довольно часто возникают вопросы, можно ли было сделать подобное практическое введение в статистику?

🥳 С таким вопросом уже обратились сотни людей! У меня для вас хорошие новости, мы на финишной прямой.

Курс «Практическое введение в статистику» стартует 4 июля. Мало того, у вас есть возможность проверить, подходит ли вам способ обучения, а затем принять решение.

💻Получите первый урок из первого модуля бесплатно - все, что нужно сделать - это зарегистрироваться, затем мы настроим для вас среду и вы получите письмо с доступом, и можете действовать!

🔥Мало того, как только вы выполните задание, вы также получите бонус.
4
Статистика — неотъемлемая часть большого количества профессий. На курсе по статистике учим правильно понимать статистические термины, характеристики, и грамотно применять их на практике.

Для кого будет полезен курс?

📍 Для специалистов по работе с данными (Data Scientist-ы, аналитики, программисты, BI сп-ты и др.)

Сегодня многие компании начинают использовать data driven подход (принимать стратегические решения, опираясь на данные).

Чтобы решить проблемы, ответить на вопросы и наметить стратегию, нужно разобраться в данных. Статистика предлагает ряд инструментов для получения этих знаний.

📍 Для экономистов
Важно вовремя определить зоны роста в экономике одного предприятия и даже страны. Статистика позволяет структурировать массивы данных и составить анализ положения дел.

📍 Для маркетологов
Работающая стратегия в маркетинге основана на хорошо проанализированных данных о рынке и собственных клиентах и др.

Хочешь научиться грамотно работать с данными? Тогда ждем Тебя на курсе по статистике.
👍8
Недавно завершился первый модуль курса по статистике.

Сегодня в нашем инстаграме мы провели небольшой опрос (в сторис) по проверке знаний 😉.

Приглашаем поучаствовать (периодически мы проводим различные интерактивы в инстаграме).
👍7
А вы знали, что если сильно переживать о том, как у вас получается выполнять какое-либо задание, вы хуже справитесь с этим заданием? Причина - кратковременная память будет перегружена бесполезными тревожными мыслями.

У человека ограниченная возможность сохранять внимание и проявлять умственные усилия. Внимание и усилия рассматриваются в качестве общего ресурса, используемого при решении многих умственных задач.

Например:
- мы не можем одновременно быстро идти и посчитать в уме 13*23

Есть доказательства того, что даже ожидание сложного задания вызывает такую же активность во многих отделах мозга, как и несложное задание такого же рода.

Д.Канеман в своей книге "Думай медленно, решай быстро" подробно рассказывает о 2 типах мышления:
1️⃣ быстрое (автоматическое, инстинктивное, эмоциональное)
2️⃣ медленное (рациональное, логическое)
и как правильно его использовать.

А еще в этой книге пишется про интуитивную статистику - даже у статистиков плохо со статистической интуицией 🙈

Очень рекомендую эту книгу🙂
🔥11👍1🤯1
2022-08-03 13.28.32.mp4
74 MB
В нашем инстаграм мы решили по средам ввести рубрику "Вопрос-ответ" в видеоформате.

Ниже можно посмотреть ответ на вопрос "Вы когда-либо просили повышение ЗП у начальника?"
👍5
А теперь вопрос к вам - уместно ли такие видео выкладывать здесь?
Anonymous Poll
87%
Да - буду смотреть :)
13%
Нет - буду в только инстаграме смотреть