Ожидания и реальность в Data Science 😎
👩🎓 Что студенты думают о Data Science🧑🎓:
• прогон данных через алгоритмы
Что Data Science значит на практике (зависит еще конкретно от компании, но все же 😉):
• ☎️ общение/митинги с заказчиками
• 🧠 понимание чего хотят заказчики (тут не все так просто )
• 💪 преобразование пожеланий в практические действия
• 🤓 управление ожиданиями
• 🧑💻👩💻 сбор данных (как правило, чем больше данных, тем лучше результат)
• 🧹очистка данных (об этом еще поговорим в следующем посте)
• 🤖 прогон данных через алгоритмы (наконец-то!)
• 🦾 построение пайплайнов обучения/логического вывода
• 🖥 написание документации
• 💃🕺 тимбилдинг
👩🎓 Что студенты думают о Data Science🧑🎓:
• прогон данных через алгоритмы
Что Data Science значит на практике (зависит еще конкретно от компании, но все же 😉):
• ☎️ общение/митинги с заказчиками
• 🧠 понимание чего хотят заказчики (тут не все так просто )
• 💪 преобразование пожеланий в практические действия
• 🤓 управление ожиданиями
• 🧑💻👩💻 сбор данных (как правило, чем больше данных, тем лучше результат)
• 🧹очистка данных (об этом еще поговорим в следующем посте)
• 🤖 прогон данных через алгоритмы (наконец-то!)
• 🦾 построение пайплайнов обучения/логического вывода
• 🖥 написание документации
• 💃🕺 тимбилдинг
👍9
Как вам реальности в Data Science? 😄
Anonymous Poll
43%
Меня этим не напугать 😎
19%
Я уже в этом варюсь - все отлично 🦾
38%
Еще больше захотелось в DS 🙃
🧹 Data Wrangling (Обработка данных) — это процесс очистки и преобразования необработанных данных в пригодный для использования формат.
✅ Только на основании качественных данных можно сделать качественный анализ и прогноз.
Собранные данные могут иметь различные проблемы, например:
❌ Отсутствующие значения, которые не указаны, бессмысленны или не определены
❌ Дублирующиеся данные
❌ Недопустимые значения, которые лежат вне нужного диапазона
❌ Орфографические ошибки, перестановка слов
❌ Шум
❌ Противоречивость информации и др.
Очистка данных - это обязательный шаг, потому что ценность данных определяется не только, и не столько объемами данных, сколько качеством собранной информации.
Существует много методов обработки, способных повысить качество данных, начиная от использования вручную написанных скриптов и заканчивая нейросетями 🤖.
✅ Только на основании качественных данных можно сделать качественный анализ и прогноз.
Собранные данные могут иметь различные проблемы, например:
❌ Отсутствующие значения, которые не указаны, бессмысленны или не определены
❌ Дублирующиеся данные
❌ Недопустимые значения, которые лежат вне нужного диапазона
❌ Орфографические ошибки, перестановка слов
❌ Шум
❌ Противоречивость информации и др.
Очистка данных - это обязательный шаг, потому что ценность данных определяется не только, и не столько объемами данных, сколько качеством собранной информации.
Существует много методов обработки, способных повысить качество данных, начиная от использования вручную написанных скриптов и заканчивая нейросетями 🤖.
🔥6
Есть шутка - 80% рабочего времени специалисты в DS тратят на очистку данных, а остальные 20% жалуются на это 🙈
Anonymous Poll
14%
Я с этим живу 😎
41%
Это не шутка 🙃
46%
Я все еще хочу в Data Science 🙂
❤3👍1
Вы используете статистику в своей работе?
Anonymous Poll
62%
Да
12%
Нет
26%
Буду учить ее вместе с DataWorkshop
Если да, то какие инструменты используете? (Можно выбрать несколько ответов 🙂)
Anonymous Poll
80%
Python
14%
R
3%
SPSS (IBM)
50%
Microsoft Excel
12%
MATLAB (The Mathworks)
2%
SAS
2%
SAP
31%
Tableau/Power BI
1%
RapidMiner
1%
Minitab
Data Analysis (Анализ данных), как этап в машинном обучении, предусматривает анализ данных, которые ранее уже были очищены и подготовлены.
Цель этого шага:
✅ Выбор аналитических методов/алгоритмов
✅ Создание моделей машинного обучения
✅ Проверка результата
В зависимости от поставленной задачи, мы выбираем алгоритмы для построения моделей машинного обучения, например:
👉 Регрессия
👉 Классификация
👉 Кластерный анализ
👉 Обнаружение аномалий и др.
🤓Обычно для любой проблемы существует несколько алгоритмов-кандидатов, которые можно использовать. Выбрать наиболее подходящий порой непросто, поэтому приходится прибегать к методам проб и ошибок.
☝️Кстати, чаще более важным, чем выбор алгоритма, является работа с признаками для конкретных данных. А разработка признаков (feature engineering) - это вообще отдельное искусство, которому мы много уделяем времени на наших обучающих программах.
Цель этого шага:
✅ Выбор аналитических методов/алгоритмов
✅ Создание моделей машинного обучения
✅ Проверка результата
В зависимости от поставленной задачи, мы выбираем алгоритмы для построения моделей машинного обучения, например:
👉 Регрессия
👉 Классификация
👉 Кластерный анализ
👉 Обнаружение аномалий и др.
🤓Обычно для любой проблемы существует несколько алгоритмов-кандидатов, которые можно использовать. Выбрать наиболее подходящий порой непросто, поэтому приходится прибегать к методам проб и ошибок.
☝️Кстати, чаще более важным, чем выбор алгоритма, является работа с признаками для конкретных данных. А разработка признаков (feature engineering) - это вообще отдельное искусство, которому мы много уделяем времени на наших обучающих программах.
👍9🔥1
На связи Владимир 🙂
Знаете ли вы, что статистика может быть полезна для извлечения ценности из данных (за которую компании хотят платить)?
🤖Я уже 5 лет веду свой авторский курс, практическое машинное обучение (1500+ студентов) и довольно часто возникают вопросы, можно ли было сделать подобное практическое введение в статистику?
🥳 С таким вопросом уже обратились сотни людей! У меня для вас хорошие новости, мы на финишной прямой.
Курс «Практическое введение в статистику» стартует 4 июля. Мало того, у вас есть возможность проверить, подходит ли вам способ обучения, а затем принять решение.
💻Получите первый урок из первого модуля бесплатно - все, что нужно сделать - это зарегистрироваться, затем мы настроим для вас среду и вы получите письмо с доступом, и можете действовать!
🔥Мало того, как только вы выполните задание, вы также получите бонус.
Знаете ли вы, что статистика может быть полезна для извлечения ценности из данных (за которую компании хотят платить)?
🤖Я уже 5 лет веду свой авторский курс, практическое машинное обучение (1500+ студентов) и довольно часто возникают вопросы, можно ли было сделать подобное практическое введение в статистику?
🥳 С таким вопросом уже обратились сотни людей! У меня для вас хорошие новости, мы на финишной прямой.
Курс «Практическое введение в статистику» стартует 4 июля. Мало того, у вас есть возможность проверить, подходит ли вам способ обучения, а затем принять решение.
💻Получите первый урок из первого модуля бесплатно - все, что нужно сделать - это зарегистрироваться, затем мы настроим для вас среду и вы получите письмо с доступом, и можете действовать!
🔥Мало того, как только вы выполните задание, вы также получите бонус.
❤4
Будешь изучать статистику с нами? 🤗
Anonymous Poll
71%
Да, я этого очень ждал(а) 🥳
15%
Я боюсь статистики и статистиков 😱
14%
Я и так все знаю 😎
Статистика — неотъемлемая часть большого количества профессий. На курсе по статистике учим правильно понимать статистические термины, характеристики, и грамотно применять их на практике.
Для кого будет полезен курс?
📍 Для специалистов по работе с данными (Data Scientist-ы, аналитики, программисты, BI сп-ты и др.)
Сегодня многие компании начинают использовать data driven подход (принимать стратегические решения, опираясь на данные).
Чтобы решить проблемы, ответить на вопросы и наметить стратегию, нужно разобраться в данных. Статистика предлагает ряд инструментов для получения этих знаний.
📍 Для экономистов
Важно вовремя определить зоны роста в экономике одного предприятия и даже страны. Статистика позволяет структурировать массивы данных и составить анализ положения дел.
📍 Для маркетологов
Работающая стратегия в маркетинге основана на хорошо проанализированных данных о рынке и собственных клиентах и др.
Хочешь научиться грамотно работать с данными? Тогда ждем Тебя на курсе по статистике.
Для кого будет полезен курс?
📍 Для специалистов по работе с данными (Data Scientist-ы, аналитики, программисты, BI сп-ты и др.)
Сегодня многие компании начинают использовать data driven подход (принимать стратегические решения, опираясь на данные).
Чтобы решить проблемы, ответить на вопросы и наметить стратегию, нужно разобраться в данных. Статистика предлагает ряд инструментов для получения этих знаний.
📍 Для экономистов
Важно вовремя определить зоны роста в экономике одного предприятия и даже страны. Статистика позволяет структурировать массивы данных и составить анализ положения дел.
📍 Для маркетологов
Работающая стратегия в маркетинге основана на хорошо проанализированных данных о рынке и собственных клиентах и др.
Хочешь научиться грамотно работать с данными? Тогда ждем Тебя на курсе по статистике.
👍8
А в Твоей профессии нужна статистика?
Anonymous Poll
66%
Да - очень!
20%
Может и нужна, но я про это не знаю :)
15%
Нужна, но я не знаю как применять :(
Недавно завершился первый модуль курса по статистике.
Сегодня в нашем инстаграме мы провели небольшой опрос (в сторис) по проверке знаний 😉.
Приглашаем поучаствовать (периодически мы проводим различные интерактивы в инстаграме).
Сегодня в нашем инстаграме мы провели небольшой опрос (в сторис) по проверке знаний 😉.
Приглашаем поучаствовать (периодически мы проводим различные интерактивы в инстаграме).
👍7
А вы знали, что если сильно переживать о том, как у вас получается выполнять какое-либо задание, вы хуже справитесь с этим заданием? Причина - кратковременная память будет перегружена бесполезными тревожными мыслями.
У человека ограниченная возможность сохранять внимание и проявлять умственные усилия. Внимание и усилия рассматриваются в качестве общего ресурса, используемого при решении многих умственных задач.
Например:
- мы не можем одновременно быстро идти и посчитать в уме 13*23
Есть доказательства того, что даже ожидание сложного задания вызывает такую же активность во многих отделах мозга, как и несложное задание такого же рода.
Д.Канеман в своей книге "Думай медленно, решай быстро" подробно рассказывает о 2 типах мышления:
1️⃣ быстрое (автоматическое, инстинктивное, эмоциональное)
2️⃣ медленное (рациональное, логическое)
и как правильно его использовать.
А еще в этой книге пишется про интуитивную статистику - даже у статистиков плохо со статистической интуицией 🙈
Очень рекомендую эту книгу🙂
У человека ограниченная возможность сохранять внимание и проявлять умственные усилия. Внимание и усилия рассматриваются в качестве общего ресурса, используемого при решении многих умственных задач.
Например:
- мы не можем одновременно быстро идти и посчитать в уме 13*23
Есть доказательства того, что даже ожидание сложного задания вызывает такую же активность во многих отделах мозга, как и несложное задание такого же рода.
Д.Канеман в своей книге "Думай медленно, решай быстро" подробно рассказывает о 2 типах мышления:
1️⃣ быстрое (автоматическое, инстинктивное, эмоциональное)
2️⃣ медленное (рациональное, логическое)
и как правильно его использовать.
А еще в этой книге пишется про интуитивную статистику - даже у статистиков плохо со статистической интуицией 🙈
Очень рекомендую эту книгу🙂
🔥11👍1🤯1
Читали эту книгу?
Anonymous Poll
22%
Да - понравилась :)
34%
Еще не успел (а)
38%
Впервые слышу о такой
5%
Не впечатлила :(
2022-08-03 13.28.32.mp4
74 MB
В нашем инстаграм мы решили по средам ввести рубрику "Вопрос-ответ" в видеоформате.
Ниже можно посмотреть ответ на вопрос "Вы когда-либо просили повышение ЗП у начальника?"
Ниже можно посмотреть ответ на вопрос "Вы когда-либо просили повышение ЗП у начальника?"
👍5
А теперь вопрос к вам - уместно ли такие видео выкладывать здесь?
Anonymous Poll
87%
Да - буду смотреть :)
13%
Нет - буду в только инстаграме смотреть
Бутстрэп (англ. bootstrap) в статистике - непараметрический метод определения статистик вероятностных распределений, основанный на многократной генерации выборок на базе имеющейся выборки.
Методы bootstrapping хорошо работают с образцами, содержащими менее 40 элементов и позволяют оценивать самые разные статистики, независимо от сложности модели:
✅ корреляцию
✅ квантили
✅ дисперсию
✅ доверительные интервалы и др.
Bootstrap используется во многих областях знаний, где нужно передать смысл того, что вы получаете что-то «бесплатно» или магическим образом из ничего получаете нечто стоящее.
15 августа у нас стартует 2-й модуль курса по практическому введению в статистику, где будем изучать bootstraping и мн. др.
Первый модуль уже доступен всем подписчикам клуба.
Методы bootstrapping хорошо работают с образцами, содержащими менее 40 элементов и позволяют оценивать самые разные статистики, независимо от сложности модели:
✅ корреляцию
✅ квантили
✅ дисперсию
✅ доверительные интервалы и др.
Bootstrap используется во многих областях знаний, где нужно передать смысл того, что вы получаете что-то «бесплатно» или магическим образом из ничего получаете нечто стоящее.
15 августа у нас стартует 2-й модуль курса по практическому введению в статистику, где будем изучать bootstraping и мн. др.
Первый модуль уже доступен всем подписчикам клуба.
🔥9👍1
Media is too big
VIEW IN TELEGRAM
По средам мы ввели рубрику - день ответов на вопросы. Вопросы можно задавать в нашем инстаграм.
В видео выше ответ на вопрос - "Рекомендательная система для видео - как измерять качество и как сравнивать подход".
Кратко о том, что говорится в видео:
1. Никогда не начинайте с технической метрики, а с чего-то простого
2. Начинайте с вопроса - какую бизнес-проблему мы решаем
3. Клики - анализ, A/B тесты, многорукие бандиты, ухудшающие A/B тесты.
В видео выше ответ на вопрос - "Рекомендательная система для видео - как измерять качество и как сравнивать подход".
Кратко о том, что говорится в видео:
1. Никогда не начинайте с технической метрики, а с чего-то простого
2. Начинайте с вопроса - какую бизнес-проблему мы решаем
3. Клики - анализ, A/B тесты, многорукие бандиты, ухудшающие A/B тесты.
❤5👍3
Знаете ли вы об эксперименте '41 оттенок синего', который принес Google дополнительные 200 млн USD в год?
Кстати, аналогичный эксперимент проделали в Microsoft для поисковой системы Bing (правда, он принес тогда всего 80 млн долларов годовой выручки - мелочь, а приятно" 😉).
Речь шла о выборе синего оттенка. Можно сделать это «на глаз» дизайнера или как скажет руководитель/заказчик или кто-то еще.
А можно подойти к решению этого вопроса более профессионально, при помощи тестов.
Существует ли тест, который может сказать нам, что решение "A", с определенным доверительным интервалом, лучше, чем решение "B"? Да, существует!
И этому, и многому другому, мы будем обучать на нашем курсе "Практическое введение в статистику".
Сегодня стартовал второй модуль курса, но вы получите доступ сразу к 2 -м модулям (пока еще по максимально доступной цене) и сможете в своем темпе обучаться.
Кстати, аналогичный эксперимент проделали в Microsoft для поисковой системы Bing (правда, он принес тогда всего 80 млн долларов годовой выручки - мелочь, а приятно" 😉).
Речь шла о выборе синего оттенка. Можно сделать это «на глаз» дизайнера или как скажет руководитель/заказчик или кто-то еще.
А можно подойти к решению этого вопроса более профессионально, при помощи тестов.
Существует ли тест, который может сказать нам, что решение "A", с определенным доверительным интервалом, лучше, чем решение "B"? Да, существует!
И этому, и многому другому, мы будем обучать на нашем курсе "Практическое введение в статистику".
Сегодня стартовал второй модуль курса, но вы получите доступ сразу к 2 -м модулям (пока еще по максимально доступной цене) и сможете в своем темпе обучаться.
❤5