DataWorkshop - AI & ML – Telegram
DataWorkshop - AI & ML
1.91K subscribers
204 photos
22 videos
13 files
150 links
Онлайн-обучение от европейской компании DataWorkshop.

Курсы по: Статистике, SQL, Python, Data Science, Нейронным сетям, Time Series, NLP.

Корпоративное обучение.

Помогаем внедрять машинное обучение в бизнес.

Сайт:
https://dataworkshop.ru
Download Telegram
Ожидания и реальность в Data Science 😎

👩‍🎓 Что студенты думают о Data Science🧑‍🎓:
• прогон данных через алгоритмы

Что Data Science значит на практике (зависит еще конкретно от компании, но все же 😉):

☎️ общение/митинги с заказчиками

🧠 понимание чего хотят заказчики (тут не все так просто )

💪 преобразование пожеланий в практические действия

🤓 управление ожиданиями

🧑‍💻👩‍💻 сбор данных (как правило, чем больше данных, тем лучше результат)

🧹очистка данных (об этом еще поговорим в следующем посте)

🤖 прогон данных через алгоритмы (наконец-то!)

🦾 построение пайплайнов обучения/логического вывода

🖥 написание документации

💃🕺 тимбилдинг
👍9
🧹 Data Wrangling (Обработка данных) — это процесс очистки и преобразования необработанных данных в пригодный для использования формат.

Только на основании качественных данных можно сделать качественный анализ и прогноз.

Собранные данные могут иметь различные проблемы, например:

Отсутствующие значения, которые не указаны, бессмысленны или не определены

Дублирующиеся данные

Недопустимые значения, которые лежат вне нужного диапазона

Орфографические ошибки, перестановка слов

Шум

Противоречивость информации и др.

Очистка данных - это обязательный шаг, потому что ценность данных определяется не только, и не столько объемами данных, сколько качеством собранной информации.

Существует много методов обработки, способных повысить качество данных, начиная от использования вручную написанных скриптов и заканчивая нейросетями 🤖.
🔥6
Есть шутка - 80% рабочего времени специалисты в DS тратят на очистку данных, а остальные 20% жалуются на это 🙈
Anonymous Poll
14%
Я с этим живу 😎
41%
Это не шутка 🙃
46%
Я все еще хочу в Data Science 🙂
3👍1
Нам нужно серьезно поговорить 😎
🔥6
Вы используете статистику в своей работе?
Anonymous Poll
62%
Да
12%
Нет
26%
Буду учить ее вместе с DataWorkshop
Если да, то какие инструменты используете? (Можно выбрать несколько ответов 🙂)
Anonymous Poll
80%
Python
14%
R
3%
SPSS (IBM)
50%
Microsoft Excel
12%
MATLAB (The Mathworks)
2%
SAS
2%
SAP
31%
Tableau/Power BI
1%
RapidMiner
1%
Minitab
Data Analysis (Анализ данных), как этап в машинном обучении, предусматривает анализ данных, которые ранее уже были очищены и подготовлены.

Цель этого шага:
Выбор аналитических методов/алгоритмов
Создание моделей машинного обучения
Проверка результата

В зависимости от поставленной задачи, мы выбираем алгоритмы для построения моделей машинного обучения, например:
👉 Регрессия
👉 Классификация
👉 Кластерный анализ
👉 Обнаружение аномалий и др.

🤓Обычно для любой проблемы существует несколько алгоритмов-кандидатов, которые можно использовать. Выбрать наиболее подходящий порой непросто, поэтому приходится прибегать к методам проб и ошибок.

☝️Кстати, чаще более важным, чем выбор алгоритма, является работа с признаками для конкретных данных. А разработка признаков (feature engineering) - это вообще отдельное искусство, которому мы много уделяем времени на наших обучающих программах.
👍9🔥1
На связи Владимир 🙂

Знаете ли вы, что статистика может быть полезна для извлечения ценности из данных (за которую компании хотят платить)?

🤖Я уже 5 лет веду свой авторский курс, практическое машинное обучение (1500+ студентов) и довольно часто возникают вопросы, можно ли было сделать подобное практическое введение в статистику?

🥳 С таким вопросом уже обратились сотни людей! У меня для вас хорошие новости, мы на финишной прямой.

Курс «Практическое введение в статистику» стартует 4 июля. Мало того, у вас есть возможность проверить, подходит ли вам способ обучения, а затем принять решение.

💻Получите первый урок из первого модуля бесплатно - все, что нужно сделать - это зарегистрироваться, затем мы настроим для вас среду и вы получите письмо с доступом, и можете действовать!

🔥Мало того, как только вы выполните задание, вы также получите бонус.
4
Статистика — неотъемлемая часть большого количества профессий. На курсе по статистике учим правильно понимать статистические термины, характеристики, и грамотно применять их на практике.

Для кого будет полезен курс?

📍 Для специалистов по работе с данными (Data Scientist-ы, аналитики, программисты, BI сп-ты и др.)

Сегодня многие компании начинают использовать data driven подход (принимать стратегические решения, опираясь на данные).

Чтобы решить проблемы, ответить на вопросы и наметить стратегию, нужно разобраться в данных. Статистика предлагает ряд инструментов для получения этих знаний.

📍 Для экономистов
Важно вовремя определить зоны роста в экономике одного предприятия и даже страны. Статистика позволяет структурировать массивы данных и составить анализ положения дел.

📍 Для маркетологов
Работающая стратегия в маркетинге основана на хорошо проанализированных данных о рынке и собственных клиентах и др.

Хочешь научиться грамотно работать с данными? Тогда ждем Тебя на курсе по статистике.
👍8
Недавно завершился первый модуль курса по статистике.

Сегодня в нашем инстаграме мы провели небольшой опрос (в сторис) по проверке знаний 😉.

Приглашаем поучаствовать (периодически мы проводим различные интерактивы в инстаграме).
👍7
А вы знали, что если сильно переживать о том, как у вас получается выполнять какое-либо задание, вы хуже справитесь с этим заданием? Причина - кратковременная память будет перегружена бесполезными тревожными мыслями.

У человека ограниченная возможность сохранять внимание и проявлять умственные усилия. Внимание и усилия рассматриваются в качестве общего ресурса, используемого при решении многих умственных задач.

Например:
- мы не можем одновременно быстро идти и посчитать в уме 13*23

Есть доказательства того, что даже ожидание сложного задания вызывает такую же активность во многих отделах мозга, как и несложное задание такого же рода.

Д.Канеман в своей книге "Думай медленно, решай быстро" подробно рассказывает о 2 типах мышления:
1️⃣ быстрое (автоматическое, инстинктивное, эмоциональное)
2️⃣ медленное (рациональное, логическое)
и как правильно его использовать.

А еще в этой книге пишется про интуитивную статистику - даже у статистиков плохо со статистической интуицией 🙈

Очень рекомендую эту книгу🙂
🔥11👍1🤯1
2022-08-03 13.28.32.mp4
74 MB
В нашем инстаграм мы решили по средам ввести рубрику "Вопрос-ответ" в видеоформате.

Ниже можно посмотреть ответ на вопрос "Вы когда-либо просили повышение ЗП у начальника?"
👍5
А теперь вопрос к вам - уместно ли такие видео выкладывать здесь?
Anonymous Poll
87%
Да - буду смотреть :)
13%
Нет - буду в только инстаграме смотреть
Бутстрэп (англ. bootstrap) в статистике - непараметрический метод определения статистик вероятностных распределений, основанный на многократной генерации выборок на базе имеющейся выборки.

Методы bootstrapping хорошо работают с образцами, содержащими менее 40 элементов и позволяют оценивать самые разные статистики, независимо от сложности модели:
корреляцию
квантили
дисперсию
доверительные интервалы и др.

Bootstrap используется во многих областях знаний, где нужно передать смысл того, что вы получаете что-то «бесплатно» или магическим образом из ничего получаете нечто стоящее.

15 августа у нас стартует 2-й модуль курса по практическому введению в статистику, где будем изучать bootstraping и мн. др.
Первый модуль уже доступен всем подписчикам клуба.
🔥9👍1
А вы используете этот магический инструмент?
Anonymous Poll
30%
Да :)
70%
Не знаю про такой :(
Media is too big
VIEW IN TELEGRAM
По средам мы ввели рубрику - день ответов на вопросы. Вопросы можно задавать в нашем инстаграм.

В видео выше ответ на вопрос - "Рекомендательная система для видео - как измерять качество и как сравнивать подход".

Кратко о том, что говорится в видео:
1. Никогда не начинайте с технической метрики, а с чего-то простого

2. Начинайте с вопроса - какую бизнес-проблему мы решаем

3. Клики - анализ, A/B тесты, многорукие бандиты, ухудшающие A/B тесты.
5👍3
Знаете ли вы об эксперименте '41 оттенок синего', который принес Google дополнительные 200 млн USD в год?

Кстати, аналогичный эксперимент проделали в Microsoft для поисковой системы Bing (правда, он принес тогда всего 80 млн долларов годовой выручки - мелочь, а приятно" 😉).

Речь шла о выборе синего оттенка. Можно сделать это «на глаз» дизайнера или как скажет руководитель/заказчик или кто-то еще.

А можно подойти к решению этого вопроса более профессионально, при помощи тестов.
Существует ли тест, который может сказать нам, что решение "A", с определенным доверительным интервалом, лучше, чем решение "B"? Да, существует!

И этому, и многому другому, мы будем обучать на нашем курсе "Практическое введение в статистику".

Сегодня стартовал второй модуль курса, но вы получите доступ сразу к 2 -м модулям (пока еще по максимально доступной цене) и сможете в своем темпе обучаться.
5