DataWorkshop - AI & ML – Telegram
DataWorkshop - AI & ML
1.91K subscribers
204 photos
22 videos
13 files
150 links
Онлайн-обучение от европейской компании DataWorkshop.

Курсы по: Статистике, SQL, Python, Data Science, Нейронным сетям, Time Series, NLP.

Корпоративное обучение.

Помогаем внедрять машинное обучение в бизнес.

Сайт:
https://dataworkshop.ru
Download Telegram
Рассказать о главных алгоритмах сэмплинга?
Anonymous Poll
82%
Да!
18%
Конечно =)
1%
Я все знаю 😉
Главные алгоритмы сэмплинга, которые должен знать каждый Data Scientist:

1️⃣Simple Random Sampling - самый простой метод случайного сэмплинга, где каждый элемент датасета имеет равную вероятность быть отобранным в выборку.

Преимущества:
🔥минимальные знания о датасете;
🔥простота интерпретации результатов.

2️⃣Reservoir sampling - формирует подмножество из k элементов совокупности, называемое резервуаром. Изначально в него помещаются k первых элементов. Затем элементы перебираются последовательно до тех пор пока не будет достигнут конец ввода.

🔥Преимущество - не требуется знать размер совокупности и он всегда использует один и тот же объем памяти.
Недостаток — алгоритм работает достаточно медленно.

3️⃣ Stratified sampling. Стратификация — это разделение набора данных на несколько групп (страт) перед сэмплингом .

Использование стратифицированного сэмплинга позволяет снизить ошибку выборки, которая возникает из-за того, что анализ производится не на основе всей совокупности, а только на основе выборки.
2
4️⃣Random Oversampling.
Случайная переборка включает в себя выбор случайных примеров из класса меньшинства с заменой и дополнение обучающих данных несколькими копиями этого экземпляра, поэтому возможно, что один экземпляр может быть выбран несколько раз.

5️⃣Random Undersampling
Метод случайной неполной выборки противоположен методу случайной переборки. Этот метод направлен на случайный отбор и удаление примеров из класса большинства, что, соответственно, уменьшает количество примеров класса большинства в преобразованных данных.

6️⃣Undersampling и Oversampling с imbalanced-learn
(библиотека Python для борьбы с проблемами несбалансированных датасетов).
Cодержит несколько различных методов для проведения ресэмплинга:

Андерсэмплинг
🔶Tomek Links - удаление элемента пары из большего набора, которое позволит классификатору отработать лучше.
🔶Cluster Centroids
🔶NearMiss и др.

Oversampling со SMOTE:
🔶SMOTE - создаются элементы в непосредственной близости от уже существующих в меньшем наборе.
🔶ADASYN
🔶bSMOTE
👍1
🚔Автомобильные компании и военные используют ML, чтобы сделать вождение более безопасным.

🏎Беспилотные автомобили работают на основе ML, которое идентифицирует объекты поблизости, предсказывает их движения и оптимизирует навигацию.

🚉Железнодорожные компании предсказывают сломанные рельсы, которые являются основной причиной серьезных железнодорожных аварий, и отказы отдельных колес.

И морская индустрия остается на плаву, предсказывая, какие крупные корабли столкнутся с опасным происшествием. Каждый уровень риска рассчитывается по возрасту судна, типу, грузоподъемности, происхождению, собственности, управлению и другим факторам.

🛩Спрос на авиаперевозки продолжает расти быстрыми темпами, соответственно, управление воздушным движением становится все более сложным.

🤖Метод опорных векторов (SVM) используется для обнаружения конфликта нескольких самолетов в воздушном пространстве и определения вероятности конфликта.
👏1🎉1
А вы знали, что в нашем DWClub есть практические материалы про SVM, Sampling и многое другое? 😉 https://bit.ly/3BeA0XB
Anonymous Poll
28%
Да, я уже в клубе ;)
72%
Хочу в клуб -)
2 февраля мы запускаем онлайн-интенсив по Data Science.
Продолжительность - 5 дней 🦾.

Реальные данные магазина из Великобритании
100% практика
Автор интенсива - практик с опытом 14 лет в коммерческом программировании
Получите навыки по работе с языком Python
Создадите и обучите свои модели машинного обучения
Получите доступ к готовой среде (устанавливать ничего не нужно)
Получите опыт по работе с самыми популярными библиотеками для Python - Pandas, NumPy, Matplotlib
Получите опыт в feature engineering
Получите доступ к закрытой группе в Slack
Увидите как работает на практике золотой принцип Парето - какие 20% усилий нужно приложить, чтобы получить 80% результата

Только для первой 1000 записавшихся участие бесплатное.

Запись по ссылке >>>> https://bit.ly/3KYjZuE
🔥21👍1
7 февраля стартует 2-й выпуск нашего курса "Практическое введение в Python для Data Science" на русском языке.

Что получите от курса за 3 недели:

Изучите переменные и их типы, функции, циклы, словари, списки
Навыки по работе с одними из самых популярных и практически применимых библиотек для Python: NumPy, NumPy, Matplotlib и др.
Навыки по работе с векторами
Изучите группировку, сортировку, агрегирование, фильтрацию для работы с данными
Научитесь преобразовывать данные, управлять отсутствующими значениями, создавать сводные таблицы и кросс-таблицы
Навык по работе с реальными данными и др.

Кому подойдет курс:
🦾 Новичкам, которые хотят изучить самый популярный язык программирования, чтобы начать осваивать новую профессию в IT
🦾 Тем, кто хочет научиться применять Python для Data Science и Machine Learning

🔥 Приобретая данный курс, получаете скидку 25% на наш курс по Data Science.
4🔥2👍1🤔1
Готовы к новым испытаниям 😉?

В рамках DWClub мы запускаем 2-дневный бесплатный интенсив по прогнозированию оптимальных продаж с помощью машинного обучения.

👉 Старт - 10 февраля
👉 Продолжительность - 2 дня

В этот раз будем находить скрытые закономерности во временных рядах и делать оптимальные прогнозы в будущем в условиях неопределенности 🦾.

Будем использовать реальные данные магазина.

👍 Для участников клуба материал остается на все время подписки.

Запись по ссылке ЗДЕСЬ
🔥7🎉3👏1
Cтартовал первый выпуск курса по Time Series на русском языке.

Сегодня в 19:00 по Москве пройдет вебинар, посвященный старту курса.
Доступ к вебинару по ссылке ЗДЕСЬ

Это последний шанс присоединиться к курсу по временным рядам первого потока.
Следующий будет не раньше осени 😉.
🔥6👍2
17 февраля в 20:00 по Москве мы проведем итоговый вебинар для интенсива ''Прогнозирование продаж с помощью Time Series".

На вебинаре участники с результатом из ТОП 5 расскажут, как им удалось добиться таких хороших результатов на конкурсе в Kaggle.

Ссылка на вебинар 👉 ЗДЕСЬ
👍5
Будешь с нами онлайн? :)
Anonymous Poll
40%
Да, обязательно :)
60%
Посмотрю в записи ;)
👍1
На канале general в нашем Slack уже опубликованы решения участников из ТОП5 конкурса в Kaggle. Тема конкурса - "Прогнозирование продаж с помощью машинного обучения".

Представлены решения участников из русскоязычных стран и из Польши.

Здесь ссылка для присоединения к Slack, если вы еще не там 😎
4👍1
3 дня интенсива от DataWorkshop:

100% практика
реальные данные
попрактикуетесь в Python
создадите и обучите модели машинного обучения
получите навык по применению библиотек Pandas, Scikit-learn, XGBoost и др.
научитесь анализировать данные и делать на их основе правильные прогнозы
поучаствуете в конкурсе в Kaggle
получите доступ к материалам в готовой среде (нужен только интернет)
получите именной электронный сертификат

Бесплатно только для первой 1000 записавшихся. Запись по этой ссылке.
5👍3👏2
4 апреля стартует 2-й выпуск курса по Data Science на русском языке.
Длительность - 4 недели 🚀.

Данный курс поможет получить фундаментальные знания в машинном обучении.
Полученные знания можно сразу применять в своих рабочих проектах 🤖.
А можно полностью уйти в сферу Data Science 🦾.

👉 Подробности о курсе

👉 Сегодня и завтра можно приобрести курс со скидкой 20%
👍6🔥3
Scikit-learn - это не просто одна из самых популярных и практически применимых библиотек для Python.

Она предоставляет огромный набор инструментов для Data Science:
🤖 самые различные виды алгоритмов классификации, регрессии и кластеризации
🤖 валидация и сохранение моделей, работа с метриками успеха моделей, настройка гиперпараметров
🤖 различные преобразования данных, заполнение отсутствующих значений и векторизация и др.

Основные преимущества Scikit-learn:
возможность интеграции с другими библиотеками для Python
множество современных алгоритмов
удобный интерфейс и подробную документацию

Завтра, 6 апреля, в рамках DWClub стартует 3-дневный практикум по работе с библиотекой Scikit-learn 🦾

В клубе больше 10 практических материалов по проведенным интенсивам на реальных данных, шпаргалки, пошаговые видео для новичков и просто куски готового кода, которые сразу можно использовать в рабочих проектах 😉

Стать участником клуба 🤝
👍111👏1
Угарный газ (CO) – это один из самых распространенных и опасных токсинов. Он образуется при горении любых материалов🔥 , в состав которых входит углерод – это бензин, природный газ, дрова и др. органические материалы.

Один из основных производителей угарного газа — энергетическая отрасль и автотранспорт.🚘

В ТОП-10 самых опасных для окружающей среды ☠️ попали электростанции, которые расположены в США, Европе (Польша, Германия), Восточной Азии (Китай, Южная Корея, Япония, Тайвань) и Индии.

Машинное обучение уже сейчас используется для прогнозирования выбросов CO в промышленности.

Участники нашего клуба смогут поучаствовать в конкурсе в Kaggle и сделать прогнозы (на основании реальных данных) по выбросу CO на электростанции.

Для этого будут использоваться такие признаки, как:
влажность и температура окружающей среды
перепад давления на воздушном фильтре
давление газовой турбины и мн. др.
Участие в таком конкурсе - это отличная возможность пополнить свое портфолио нетиповым, но важным решением 🤓
👍14
Machine Learning - это эксперименты. Много экспериментов.

А когда у Тебя десятки или даже сотни экспериментов, то рано или поздно столкнешься с такими проблемами🤯 :
​​🙅‍♂️ Не сможешь вспомнить - какие именно параметры использовались при обучении ML моделей и какого качества были модели

🙅‍♂️ Не сможешь воспроизвести свой же лучший результат, т.к. "потеряешься" среди огромного количества экспериментов

🙅‍♂️ Фильтровать и находить эксперименты по различным параметрам становится практически невозможно и др.

Для решения таких проблем есть отличный инструмент - MLflow!

Преимущества MLflow:
📌 Возможность сохранять (логировать) любые форматы файлов (картинки, csv, html, графики).

📌 Масштабируемость – вся информация сохраняется (записывается), независимо от количества моделей.

📌 Централизованное и безопасное хранилище.

📌 Вся информация о метриках модели структурирована.

📌 Простая и понятная документация и API и др.

6 мая запускаем 2-х дневный интенсив по MLflow 👉 https://bit.ly/3sd5r2E
👍10