NEW BOT Телеграм, страница

DataWorkshop - AI & ML

Рассказать о главных алгоритмах сэмплинга?

Anonymous Poll

82%

119 voters1.14K views12:09

DataWorkshop - AI & ML

Главные алгоритмы сэмплинга, которые должен знать каждый Data Scientist:

1️⃣Simple Random Sampling - самый простой метод случайного сэмплинга, где каждый элемент датасета имеет равную вероятность быть отобранным в выборку.

Преимущества:
🔥минимальные знания о датасете;
🔥простота интерпретации результатов.

2️⃣Reservoir sampling - формирует подмножество из k элементов совокупности, называемое резервуаром. Изначально в него помещаются k первых элементов. Затем элементы перебираются последовательно до тех пор пока не будет достигнут конец ввода.

🔥Преимущество - не требуется знать размер совокупности и он всегда использует один и тот же объем памяти.
❌Недостаток — алгоритм работает достаточно медленно.

3️⃣ Stratified sampling. Стратификация — это разделение набора данных на несколько групп (страт) перед сэмплингом .

Использование стратифицированного сэмплинга позволяет снизить ошибку выборки, которая возникает из-за того, что анализ производится не на основе всей совокупности, а только на основе выборки.

❤2

1.18K views07:40

DataWorkshop - AI & ML

4️⃣Random Oversampling.
Случайная переборка включает в себя выбор случайных примеров из класса меньшинства с заменой и дополнение обучающих данных несколькими копиями этого экземпляра, поэтому возможно, что один экземпляр может быть выбран несколько раз.

5️⃣Random Undersampling
Метод случайной неполной выборки противоположен методу случайной переборки. Этот метод направлен на случайный отбор и удаление примеров из класса большинства, что, соответственно, уменьшает количество примеров класса большинства в преобразованных данных.

6️⃣Undersampling и Oversampling с imbalanced-learn
(библиотека Python для борьбы с проблемами несбалансированных датасетов).
Cодержит несколько различных методов для проведения ресэмплинга:

✅ Андерсэмплинг
🔶Tomek Links - удаление элемента пары из большего набора, которое позволит классификатору отработать лучше.
🔶Cluster Centroids
🔶NearMiss и др.

✅Oversampling со SMOTE:
🔶SMOTE - создаются элементы в непосредственной близости от уже существующих в меньшем наборе.
🔶ADASYN
🔶bSMOTE

👍1

1.29K views07:40

DataWorkshop - AI & ML

🚔Автомобильные компании и военные используют ML, чтобы сделать вождение более безопасным.

🏎Беспилотные автомобили работают на основе ML, которое идентифицирует объекты поблизости, предсказывает их движения и оптимизирует навигацию.

🚉Железнодорожные компании предсказывают сломанные рельсы, которые являются основной причиной серьезных железнодорожных аварий, и отказы отдельных колес.

⛴И морская индустрия остается на плаву, предсказывая, какие крупные корабли столкнутся с опасным происшествием. Каждый уровень риска рассчитывается по возрасту судна, типу, грузоподъемности, происхождению, собственности, управлению и другим факторам.

🛩Спрос на авиаперевозки продолжает расти быстрыми темпами, соответственно, управление воздушным движением становится все более сложным.

🤖Метод опорных векторов (SVM) используется для обнаружения конфликта нескольких самолетов в воздушном пространстве и определения вероятности конфликта.

👏1🎉1

1.41K views13:32

DataWorkshop - AI & ML

А вы знали, что в нашем DWClub есть практические материалы про SVM, Sampling и многое другое? 😉 https://bit.ly/3BeA0XB

Anonymous Poll

85 voters1.44K views13:39

DataWorkshop - AI & ML

2 февраля мы запускаем онлайн-интенсив по Data Science.
Продолжительность - 5 дней 🦾.

✅ Реальные данные магазина из Великобритании
✅ 100% практика
✅ Автор интенсива - практик с опытом 14 лет в коммерческом программировании
✅ Получите навыки по работе с языком Python
✅ Создадите и обучите свои модели машинного обучения
✅ Получите доступ к готовой среде (устанавливать ничего не нужно)
✅ Получите опыт по работе с самыми популярными библиотеками для Python - Pandas, NumPy, Matplotlib
✅ Получите опыт в feature engineering
✅ Получите доступ к закрытой группе в Slack
✅ Увидите как работает на практике золотой принцип Парето - какие 20% усилий нужно приложить, чтобы получить 80% результата

Только для первой 1000 записавшихся участие бесплатное.

Запись по ссылке >>>> https://bit.ly/3KYjZuE

🔥2❤1👍1

2.14K viewsedited 06:48

DataWorkshop - AI & ML

Будешь на интенсиве? 😉

Anonymous Poll

69%

Да, уже жду завтра :)

18%

Иду записываться ;)

13%

В этот раз не получается :(

230 voters1.42K views06:59

DataWorkshop - AI & ML

7 февраля стартует 2-й выпуск нашего курса "Практическое введение в Python для Data Science" на русском языке.

Что получите от курса за 3 недели:

✅ Изучите переменные и их типы, функции, циклы, словари, списки
✅ Навыки по работе с одними из самых популярных и практически применимых библиотек для Python: NumPy, NumPy, Matplotlib и др.
✅ Навыки по работе с векторами
✅ Изучите группировку, сортировку, агрегирование, фильтрацию для работы с данными
✅ Научитесь преобразовывать данные, управлять отсутствующими значениями, создавать сводные таблицы и кросс-таблицы
✅ Навык по работе с реальными данными и др.

Кому подойдет курс:
🦾 Новичкам, которые хотят изучить самый популярный язык программирования, чтобы начать осваивать новую профессию в IT
🦾 Тем, кто хочет научиться применять Python для Data Science и Machine Learning

🔥 Приобретая данный курс, получаете скидку 25% на наш курс по Data Science.

❤4🔥2👍1🤔1

1.55K views14:20

DataWorkshop - AI & ML

Готовы к новым испытаниям 😉?

В рамках DWClub мы запускаем 2-дневный бесплатный интенсив по прогнозированию оптимальных продаж с помощью машинного обучения.

👉 Старт - 10 февраля
👉 Продолжительность - 2 дня

В этот раз будем находить скрытые закономерности во временных рядах и делать оптимальные прогнозы в будущем в условиях неопределенности 🦾.

Будем использовать реальные данные магазина.

👍 Для участников клуба материал остается на все время подписки.

Запись по ссылке ✅ ЗДЕСЬ

🔥7🎉3👏1

1.5K views08:25

DataWorkshop - AI & ML

Будешь принимать участие?

Anonymous Poll

65%

Конечно 🙂

22%

Очень хочу, но не получается 😞

13%

Я еще от прошлого интнесива отхожу😎

👏5

129 voters1.83K views08:31

DataWorkshop - AI & ML

Cтартовал первый выпуск курса по Time Series на русском языке.

Сегодня в 19:00 по Москве пройдет вебинар, посвященный старту курса.
Доступ к вебинару по ссылке ЗДЕСЬ

Это последний шанс присоединиться к курсу по временным рядам первого потока.
Следующий будет не раньше осени 😉.

🔥6👍2

1.47K views15:27

DataWorkshop - AI & ML

17 февраля в 20:00 по Москве мы проведем итоговый вебинар для интенсива ''Прогнозирование продаж с помощью Time Series".

На вебинаре участники с результатом из ТОП 5 расскажут, как им удалось добиться таких хороших результатов на конкурсе в Kaggle.

Ссылка на вебинар 👉 ЗДЕСЬ

👍5

1.8K views15:38

DataWorkshop - AI & ML

Будешь с нами онлайн? :)

Anonymous Poll

👍1

93 voters1.92K views15:41

DataWorkshop - AI & ML

На канале general в нашем Slack уже опубликованы решения участников из ТОП5 конкурса в Kaggle. Тема конкурса - "Прогнозирование продаж с помощью машинного обучения".

Представлены решения участников из русскоязычных стран и из Польши.

Здесь ссылка для присоединения к Slack, если вы еще не там 😎

❤4👍1

1.89K views16:15

DataWorkshop - AI & ML

3 дня интенсива от DataWorkshop:

✅ 100% практика
✅ реальные данные
✅ попрактикуетесь в Python
✅ создадите и обучите модели машинного обучения
✅ получите навык по применению библиотек Pandas, Scikit-learn, XGBoost и др.
✅ научитесь анализировать данные и делать на их основе правильные прогнозы
✅ поучаствуете в конкурсе в Kaggle
✅ получите доступ к материалам в готовой среде (нужен только интернет)
✅ получите именной электронный сертификат

Бесплатно только для первой 1000 записавшихся. Запись по этой ссылке.

❤5👍3👏2

1.68K views11:48

DataWorkshop - AI & ML

Ты с нами? ❤️

Anonymous Poll

❤4

179 voters1.74K views11:57

DataWorkshop - AI & ML

4 апреля стартует 2-й выпуск курса по Data Science на русском языке.
Длительность - 4 недели 🚀.

Данный курс поможет получить фундаментальные знания в машинном обучении.
Полученные знания можно сразу применять в своих рабочих проектах 🤖.
А можно полностью уйти в сферу Data Science 🦾.

👉 Подробности о курсе

👉 Сегодня и завтра можно приобрести курс со скидкой 20%

👍6🔥3

1.54K views11:15

DataWorkshop - AI & ML

Scikit-learn - это не просто одна из самых популярных и практически применимых библиотек для Python.

Она предоставляет огромный набор инструментов для Data Science:
🤖 самые различные виды алгоритмов классификации, регрессии и кластеризации
🤖 валидация и сохранение моделей, работа с метриками успеха моделей, настройка гиперпараметров
🤖 различные преобразования данных, заполнение отсутствующих значений и векторизация и др.

Основные преимущества Scikit-learn:
⭐ возможность интеграции с другими библиотеками для Python
⭐ множество современных алгоритмов
⭐ удобный интерфейс и подробную документацию

Завтра, 6 апреля, в рамках DWClub стартует 3-дневный практикум по работе с библиотекой Scikit-learn 🦾

В клубе больше 10 практических материалов по проведенным интенсивам на реальных данных, шпаргалки, пошаговые видео для новичков и просто куски готового кода, которые сразу можно использовать в рабочих проектах 😉

Стать участником клуба 🤝

👍11❤1👏1

1.66K views16:21

DataWorkshop - AI & ML

Угарный газ (CO) – это один из самых распространенных и опасных токсинов. Он образуется при горении любых материалов🔥 , в состав которых входит углерод – это бензин, природный газ, дрова и др. органические материалы.

Один из основных производителей угарного газа — энергетическая отрасль и автотранспорт.🚘

В ТОП-10 самых опасных для окружающей среды ☠️ попали электростанции, которые расположены в США, Европе (Польша, Германия), Восточной Азии (Китай, Южная Корея, Япония, Тайвань) и Индии.

Машинное обучение уже сейчас используется для прогнозирования выбросов CO в промышленности.

Участники нашего клуба смогут поучаствовать в конкурсе в Kaggle и сделать прогнозы (на основании реальных данных) по выбросу CO на электростанции.

Для этого будут использоваться такие признаки, как:
✅ влажность и температура окружающей среды
✅ перепад давления на воздушном фильтре
✅ давление газовой турбины и мн. др.
Участие в таком конкурсе - это отличная возможность пополнить свое портфолио нетиповым, но важным решением 🤓

👍14

1.42K views11:53

DataWorkshop - AI & ML

Machine Learning - это эксперименты. Много экспериментов.

А когда у Тебя десятки или даже сотни экспериментов, то рано или поздно столкнешься с такими проблемами🤯 :
🙅‍♂️ Не сможешь вспомнить - какие именно параметры использовались при обучении ML моделей и какого качества были модели

🙅‍♂️ Не сможешь воспроизвести свой же лучший результат, т.к. "потеряешься" среди огромного количества экспериментов

🙅‍♂️ Фильтровать и находить эксперименты по различным параметрам становится практически невозможно и др.

Для решения таких проблем есть отличный инструмент - MLflow!

Преимущества MLflow:
📌 Возможность сохранять (логировать) любые форматы файлов (картинки, csv, html, графики).

📌 Масштабируемость – вся информация сохраняется (записывается), независимо от количества моделей.

📌 Централизованное и безопасное хранилище.

📌 Вся информация о метриках модели структурирована.

📌 Простая и понятная документация и API и др.

6 мая запускаем 2-х дневный интенсив по MLflow 👉 https://bit.ly/3sd5r2E

👍10

1.29K views06:41

DataWorkshop - AI & ML

Используешь в своей работе MLflow?

Anonymous Poll

Да - очень удобно :)

47%

Впервые слышу о таком =)

46%

Хочу научиться использовать ;)

116 voters1.42K views06:43

About

Blog

Apps

Platform