Главные алгоритмы сэмплинга, которые должен знать каждый Data Scientist:
1️⃣Simple Random Sampling - самый простой метод случайного сэмплинга, где каждый элемент датасета имеет равную вероятность быть отобранным в выборку.
Преимущества:
🔥минимальные знания о датасете;
🔥простота интерпретации результатов.
2️⃣Reservoir sampling - формирует подмножество из k элементов совокупности, называемое резервуаром. Изначально в него помещаются k первых элементов. Затем элементы перебираются последовательно до тех пор пока не будет достигнут конец ввода.
🔥Преимущество - не требуется знать размер совокупности и он всегда использует один и тот же объем памяти.
❌Недостаток — алгоритм работает достаточно медленно.
3️⃣ Stratified sampling. Стратификация — это разделение набора данных на несколько групп (страт) перед сэмплингом .
Использование стратифицированного сэмплинга позволяет снизить ошибку выборки, которая возникает из-за того, что анализ производится не на основе всей совокупности, а только на основе выборки.
1️⃣Simple Random Sampling - самый простой метод случайного сэмплинга, где каждый элемент датасета имеет равную вероятность быть отобранным в выборку.
Преимущества:
🔥минимальные знания о датасете;
🔥простота интерпретации результатов.
2️⃣Reservoir sampling - формирует подмножество из k элементов совокупности, называемое резервуаром. Изначально в него помещаются k первых элементов. Затем элементы перебираются последовательно до тех пор пока не будет достигнут конец ввода.
🔥Преимущество - не требуется знать размер совокупности и он всегда использует один и тот же объем памяти.
❌Недостаток — алгоритм работает достаточно медленно.
3️⃣ Stratified sampling. Стратификация — это разделение набора данных на несколько групп (страт) перед сэмплингом .
Использование стратифицированного сэмплинга позволяет снизить ошибку выборки, которая возникает из-за того, что анализ производится не на основе всей совокупности, а только на основе выборки.
❤2
4️⃣Random Oversampling.
Случайная переборка включает в себя выбор случайных примеров из класса меньшинства с заменой и дополнение обучающих данных несколькими копиями этого экземпляра, поэтому возможно, что один экземпляр может быть выбран несколько раз.
5️⃣Random Undersampling
Метод случайной неполной выборки противоположен методу случайной переборки. Этот метод направлен на случайный отбор и удаление примеров из класса большинства, что, соответственно, уменьшает количество примеров класса большинства в преобразованных данных.
6️⃣Undersampling и Oversampling с imbalanced-learn
(библиотека Python для борьбы с проблемами несбалансированных датасетов).
Cодержит несколько различных методов для проведения ресэмплинга:
✅ Андерсэмплинг
🔶Tomek Links - удаление элемента пары из большего набора, которое позволит классификатору отработать лучше.
🔶Cluster Centroids
🔶NearMiss и др.
✅Oversampling со SMOTE:
🔶SMOTE - создаются элементы в непосредственной близости от уже существующих в меньшем наборе.
🔶ADASYN
🔶bSMOTE
Случайная переборка включает в себя выбор случайных примеров из класса меньшинства с заменой и дополнение обучающих данных несколькими копиями этого экземпляра, поэтому возможно, что один экземпляр может быть выбран несколько раз.
5️⃣Random Undersampling
Метод случайной неполной выборки противоположен методу случайной переборки. Этот метод направлен на случайный отбор и удаление примеров из класса большинства, что, соответственно, уменьшает количество примеров класса большинства в преобразованных данных.
6️⃣Undersampling и Oversampling с imbalanced-learn
(библиотека Python для борьбы с проблемами несбалансированных датасетов).
Cодержит несколько различных методов для проведения ресэмплинга:
✅ Андерсэмплинг
🔶Tomek Links - удаление элемента пары из большего набора, которое позволит классификатору отработать лучше.
🔶Cluster Centroids
🔶NearMiss и др.
✅Oversampling со SMOTE:
🔶SMOTE - создаются элементы в непосредственной близости от уже существующих в меньшем наборе.
🔶ADASYN
🔶bSMOTE
👍1
🚔Автомобильные компании и военные используют ML, чтобы сделать вождение более безопасным.
🏎Беспилотные автомобили работают на основе ML, которое идентифицирует объекты поблизости, предсказывает их движения и оптимизирует навигацию.
🚉Железнодорожные компании предсказывают сломанные рельсы, которые являются основной причиной серьезных железнодорожных аварий, и отказы отдельных колес.
⛴И морская индустрия остается на плаву, предсказывая, какие крупные корабли столкнутся с опасным происшествием. Каждый уровень риска рассчитывается по возрасту судна, типу, грузоподъемности, происхождению, собственности, управлению и другим факторам.
🛩Спрос на авиаперевозки продолжает расти быстрыми темпами, соответственно, управление воздушным движением становится все более сложным.
🤖Метод опорных векторов (SVM) используется для обнаружения конфликта нескольких самолетов в воздушном пространстве и определения вероятности конфликта.
🏎Беспилотные автомобили работают на основе ML, которое идентифицирует объекты поблизости, предсказывает их движения и оптимизирует навигацию.
🚉Железнодорожные компании предсказывают сломанные рельсы, которые являются основной причиной серьезных железнодорожных аварий, и отказы отдельных колес.
⛴И морская индустрия остается на плаву, предсказывая, какие крупные корабли столкнутся с опасным происшествием. Каждый уровень риска рассчитывается по возрасту судна, типу, грузоподъемности, происхождению, собственности, управлению и другим факторам.
🛩Спрос на авиаперевозки продолжает расти быстрыми темпами, соответственно, управление воздушным движением становится все более сложным.
🤖Метод опорных векторов (SVM) используется для обнаружения конфликта нескольких самолетов в воздушном пространстве и определения вероятности конфликта.
👏1🎉1
А вы знали, что в нашем DWClub есть практические материалы про SVM, Sampling и многое другое? 😉 https://bit.ly/3BeA0XB
Anonymous Poll
28%
Да, я уже в клубе ;)
72%
Хочу в клуб -)
2 февраля мы запускаем онлайн-интенсив по Data Science.
Продолжительность - 5 дней 🦾.
✅ Реальные данные магазина из Великобритании
✅ 100% практика
✅ Автор интенсива - практик с опытом 14 лет в коммерческом программировании
✅ Получите навыки по работе с языком Python
✅ Создадите и обучите свои модели машинного обучения
✅ Получите доступ к готовой среде (устанавливать ничего не нужно)
✅ Получите опыт по работе с самыми популярными библиотеками для Python - Pandas, NumPy, Matplotlib
✅ Получите опыт в feature engineering
✅ Получите доступ к закрытой группе в Slack
✅ Увидите как работает на практике золотой принцип Парето - какие 20% усилий нужно приложить, чтобы получить 80% результата
Только для первой 1000 записавшихся участие бесплатное.
Запись по ссылке >>>> https://bit.ly/3KYjZuE
Продолжительность - 5 дней 🦾.
✅ Реальные данные магазина из Великобритании
✅ 100% практика
✅ Автор интенсива - практик с опытом 14 лет в коммерческом программировании
✅ Получите навыки по работе с языком Python
✅ Создадите и обучите свои модели машинного обучения
✅ Получите доступ к готовой среде (устанавливать ничего не нужно)
✅ Получите опыт по работе с самыми популярными библиотеками для Python - Pandas, NumPy, Matplotlib
✅ Получите опыт в feature engineering
✅ Получите доступ к закрытой группе в Slack
✅ Увидите как работает на практике золотой принцип Парето - какие 20% усилий нужно приложить, чтобы получить 80% результата
Только для первой 1000 записавшихся участие бесплатное.
Запись по ссылке >>>> https://bit.ly/3KYjZuE
🔥2❤1👍1
Будешь на интенсиве? 😉
Anonymous Poll
69%
Да, уже жду завтра :)
18%
Иду записываться ;)
13%
В этот раз не получается :(
7 февраля стартует 2-й выпуск нашего курса "Практическое введение в Python для Data Science" на русском языке.
Что получите от курса за 3 недели:
✅ Изучите переменные и их типы, функции, циклы, словари, списки
✅ Навыки по работе с одними из самых популярных и практически применимых библиотек для Python: NumPy, NumPy, Matplotlib и др.
✅ Навыки по работе с векторами
✅ Изучите группировку, сортировку, агрегирование, фильтрацию для работы с данными
✅ Научитесь преобразовывать данные, управлять отсутствующими значениями, создавать сводные таблицы и кросс-таблицы
✅ Навык по работе с реальными данными и др.
Кому подойдет курс:
🦾 Новичкам, которые хотят изучить самый популярный язык программирования, чтобы начать осваивать новую профессию в IT
🦾 Тем, кто хочет научиться применять Python для Data Science и Machine Learning
🔥 Приобретая данный курс, получаете скидку 25% на наш курс по Data Science.
Что получите от курса за 3 недели:
✅ Изучите переменные и их типы, функции, циклы, словари, списки
✅ Навыки по работе с одними из самых популярных и практически применимых библиотек для Python: NumPy, NumPy, Matplotlib и др.
✅ Навыки по работе с векторами
✅ Изучите группировку, сортировку, агрегирование, фильтрацию для работы с данными
✅ Научитесь преобразовывать данные, управлять отсутствующими значениями, создавать сводные таблицы и кросс-таблицы
✅ Навык по работе с реальными данными и др.
Кому подойдет курс:
🦾 Новичкам, которые хотят изучить самый популярный язык программирования, чтобы начать осваивать новую профессию в IT
🦾 Тем, кто хочет научиться применять Python для Data Science и Machine Learning
🔥 Приобретая данный курс, получаете скидку 25% на наш курс по Data Science.
❤4🔥2👍1🤔1
Готовы к новым испытаниям 😉?
В рамках DWClub мы запускаем 2-дневный бесплатный интенсив по прогнозированию оптимальных продаж с помощью машинного обучения.
👉 Старт - 10 февраля
👉 Продолжительность - 2 дня
В этот раз будем находить скрытые закономерности во временных рядах и делать оптимальные прогнозы в будущем в условиях неопределенности 🦾.
Будем использовать реальные данные магазина.
👍 Для участников клуба материал остается на все время подписки.
Запись по ссылке ✅ ЗДЕСЬ
В рамках DWClub мы запускаем 2-дневный бесплатный интенсив по прогнозированию оптимальных продаж с помощью машинного обучения.
👉 Старт - 10 февраля
👉 Продолжительность - 2 дня
В этот раз будем находить скрытые закономерности во временных рядах и делать оптимальные прогнозы в будущем в условиях неопределенности 🦾.
Будем использовать реальные данные магазина.
👍 Для участников клуба материал остается на все время подписки.
Запись по ссылке ✅ ЗДЕСЬ
🔥7🎉3👏1
Будешь принимать участие?
Anonymous Poll
65%
Конечно 🙂
22%
Очень хочу, но не получается 😞
13%
Я еще от прошлого интнесива отхожу😎
👏5
Cтартовал первый выпуск курса по Time Series на русском языке.
Сегодня в 19:00 по Москве пройдет вебинар, посвященный старту курса.
Доступ к вебинару по ссылке ЗДЕСЬ
Это последний шанс присоединиться к курсу по временным рядам первого потока.
Следующий будет не раньше осени 😉.
Сегодня в 19:00 по Москве пройдет вебинар, посвященный старту курса.
Доступ к вебинару по ссылке ЗДЕСЬ
Это последний шанс присоединиться к курсу по временным рядам первого потока.
Следующий будет не раньше осени 😉.
🔥6👍2
17 февраля в 20:00 по Москве мы проведем итоговый вебинар для интенсива ''Прогнозирование продаж с помощью Time Series".
На вебинаре участники с результатом из ТОП 5 расскажут, как им удалось добиться таких хороших результатов на конкурсе в Kaggle.
Ссылка на вебинар 👉 ЗДЕСЬ
На вебинаре участники с результатом из ТОП 5 расскажут, как им удалось добиться таких хороших результатов на конкурсе в Kaggle.
Ссылка на вебинар 👉 ЗДЕСЬ
👍5
👍1
3 дня интенсива от DataWorkshop:
✅ 100% практика
✅ реальные данные
✅ попрактикуетесь в Python
✅ создадите и обучите модели машинного обучения
✅ получите навык по применению библиотек Pandas, Scikit-learn, XGBoost и др.
✅ научитесь анализировать данные и делать на их основе правильные прогнозы
✅ поучаствуете в конкурсе в Kaggle
✅ получите доступ к материалам в готовой среде (нужен только интернет)
✅ получите именной электронный сертификат
Бесплатно только для первой 1000 записавшихся. Запись по этой ссылке.
✅ 100% практика
✅ реальные данные
✅ попрактикуетесь в Python
✅ создадите и обучите модели машинного обучения
✅ получите навык по применению библиотек Pandas, Scikit-learn, XGBoost и др.
✅ научитесь анализировать данные и делать на их основе правильные прогнозы
✅ поучаствуете в конкурсе в Kaggle
✅ получите доступ к материалам в готовой среде (нужен только интернет)
✅ получите именной электронный сертификат
Бесплатно только для первой 1000 записавшихся. Запись по этой ссылке.
❤5👍3👏2
❤4
4 апреля стартует 2-й выпуск курса по Data Science на русском языке.
Длительность - 4 недели 🚀.
Данный курс поможет получить фундаментальные знания в машинном обучении.
Полученные знания можно сразу применять в своих рабочих проектах 🤖.
А можно полностью уйти в сферу Data Science 🦾.
👉 Подробности о курсе
👉 Сегодня и завтра можно приобрести курс со скидкой 20%
Длительность - 4 недели 🚀.
Данный курс поможет получить фундаментальные знания в машинном обучении.
Полученные знания можно сразу применять в своих рабочих проектах 🤖.
А можно полностью уйти в сферу Data Science 🦾.
👉 Подробности о курсе
👉 Сегодня и завтра можно приобрести курс со скидкой 20%
👍6🔥3
Scikit-learn - это не просто одна из самых популярных и практически применимых библиотек для Python.
Она предоставляет огромный набор инструментов для Data Science:
🤖 самые различные виды алгоритмов классификации, регрессии и кластеризации
🤖 валидация и сохранение моделей, работа с метриками успеха моделей, настройка гиперпараметров
🤖 различные преобразования данных, заполнение отсутствующих значений и векторизация и др.
Основные преимущества Scikit-learn:
⭐ возможность интеграции с другими библиотеками для Python
⭐ множество современных алгоритмов
⭐ удобный интерфейс и подробную документацию
Завтра, 6 апреля, в рамках DWClub стартует 3-дневный практикум по работе с библиотекой Scikit-learn 🦾
В клубе больше 10 практических материалов по проведенным интенсивам на реальных данных, шпаргалки, пошаговые видео для новичков и просто куски готового кода, которые сразу можно использовать в рабочих проектах 😉
Стать участником клуба 🤝
Она предоставляет огромный набор инструментов для Data Science:
🤖 самые различные виды алгоритмов классификации, регрессии и кластеризации
🤖 валидация и сохранение моделей, работа с метриками успеха моделей, настройка гиперпараметров
🤖 различные преобразования данных, заполнение отсутствующих значений и векторизация и др.
Основные преимущества Scikit-learn:
⭐ возможность интеграции с другими библиотеками для Python
⭐ множество современных алгоритмов
⭐ удобный интерфейс и подробную документацию
Завтра, 6 апреля, в рамках DWClub стартует 3-дневный практикум по работе с библиотекой Scikit-learn 🦾
В клубе больше 10 практических материалов по проведенным интенсивам на реальных данных, шпаргалки, пошаговые видео для новичков и просто куски готового кода, которые сразу можно использовать в рабочих проектах 😉
Стать участником клуба 🤝
👍11❤1👏1
Угарный газ (CO) – это один из самых распространенных и опасных токсинов. Он образуется при горении любых материалов🔥 , в состав которых входит углерод – это бензин, природный газ, дрова и др. органические материалы.
Один из основных производителей угарного газа — энергетическая отрасль и автотранспорт.🚘
В ТОП-10 самых опасных для окружающей среды ☠️ попали электростанции, которые расположены в США, Европе (Польша, Германия), Восточной Азии (Китай, Южная Корея, Япония, Тайвань) и Индии.
Машинное обучение уже сейчас используется для прогнозирования выбросов CO в промышленности.
Участники нашего клуба смогут поучаствовать в конкурсе в Kaggle и сделать прогнозы (на основании реальных данных) по выбросу CO на электростанции.
Для этого будут использоваться такие признаки, как:
✅ влажность и температура окружающей среды
✅ перепад давления на воздушном фильтре
✅ давление газовой турбины и мн. др.
Участие в таком конкурсе - это отличная возможность пополнить свое портфолио нетиповым, но важным решением 🤓
Один из основных производителей угарного газа — энергетическая отрасль и автотранспорт.🚘
В ТОП-10 самых опасных для окружающей среды ☠️ попали электростанции, которые расположены в США, Европе (Польша, Германия), Восточной Азии (Китай, Южная Корея, Япония, Тайвань) и Индии.
Машинное обучение уже сейчас используется для прогнозирования выбросов CO в промышленности.
Участники нашего клуба смогут поучаствовать в конкурсе в Kaggle и сделать прогнозы (на основании реальных данных) по выбросу CO на электростанции.
Для этого будут использоваться такие признаки, как:
✅ влажность и температура окружающей среды
✅ перепад давления на воздушном фильтре
✅ давление газовой турбины и мн. др.
Участие в таком конкурсе - это отличная возможность пополнить свое портфолио нетиповым, но важным решением 🤓
👍14
Machine Learning - это эксперименты. Много экспериментов.
А когда у Тебя десятки или даже сотни экспериментов, то рано или поздно столкнешься с такими проблемами🤯 :
🙅♂️ Не сможешь вспомнить - какие именно параметры использовались при обучении ML моделей и какого качества были модели
🙅♂️ Не сможешь воспроизвести свой же лучший результат, т.к. "потеряешься" среди огромного количества экспериментов
🙅♂️ Фильтровать и находить эксперименты по различным параметрам становится практически невозможно и др.
Для решения таких проблем есть отличный инструмент - MLflow!
Преимущества MLflow:
📌 Возможность сохранять (логировать) любые форматы файлов (картинки, csv, html, графики).
📌 Масштабируемость – вся информация сохраняется (записывается), независимо от количества моделей.
📌 Централизованное и безопасное хранилище.
📌 Вся информация о метриках модели структурирована.
📌 Простая и понятная документация и API и др.
6 мая запускаем 2-х дневный интенсив по MLflow 👉 https://bit.ly/3sd5r2E
А когда у Тебя десятки или даже сотни экспериментов, то рано или поздно столкнешься с такими проблемами🤯 :
🙅♂️ Не сможешь вспомнить - какие именно параметры использовались при обучении ML моделей и какого качества были модели
🙅♂️ Не сможешь воспроизвести свой же лучший результат, т.к. "потеряешься" среди огромного количества экспериментов
🙅♂️ Фильтровать и находить эксперименты по различным параметрам становится практически невозможно и др.
Для решения таких проблем есть отличный инструмент - MLflow!
Преимущества MLflow:
📌 Возможность сохранять (логировать) любые форматы файлов (картинки, csv, html, графики).
📌 Масштабируемость – вся информация сохраняется (записывается), независимо от количества моделей.
📌 Централизованное и безопасное хранилище.
📌 Вся информация о метриках модели структурирована.
📌 Простая и понятная документация и API и др.
6 мая запускаем 2-х дневный интенсив по MLflow 👉 https://bit.ly/3sd5r2E
👍10
Используешь в своей работе MLflow?
Anonymous Poll
8%
Да - очень удобно :)
47%
Впервые слышу о таком =)
46%
Хочу научиться использовать ;)