DataWorkshop - AI & ML – Telegram
DataWorkshop - AI & ML
1.91K subscribers
204 photos
22 videos
13 files
150 links
Онлайн-обучение от европейской компании DataWorkshop.

Курсы по: Статистике, SQL, Python, Data Science, Нейронным сетям, Time Series, NLP.

Корпоративное обучение.

Помогаем внедрять машинное обучение в бизнес.

Сайт:
https://dataworkshop.ru
Download Telegram
А вы все эти роли знали или можете еще дополнить?😉
Anonymous Poll
92%
Уххх, как их много 🤗
4%
Я все знаю 🦾
4%
Могу дополнить😇
Data Engineer-ы cоздают системы, которые собирают, управляют и преобразовывают необработанные данные в полезную информацию для интерпретации Data Scientist-ми и аналитиками.

Их конечная цель — сделать данные доступными для оценки и оптимизации работы.

Data Librarian занимаются
сохранением данных, созданием и обслуживанием систем, обеспечивающих доступ, поиск и потенциальное повторное использование соответствующих данных для дальнейшего использования.

Хотя самим библиотекарям не нужно разбираться в тонкостях методов науки о данных, они могут служить распорядителями этой информации и способствовать обучению в этой области.

Data Strategist превращает бизнес-требования к данным в готовый продукт, совмещая роли системного аналитика, менеджера проектов и технолога в процессах сбора и обработки информации.

Data Strategist работает, в первую очередь, с людьми, и лишь потом – с данными, выступая в роли универсального транслятора между бизнесом и техническими специалистами в каждой точке data pipeline’а.
Как думаете, какая из этих ролей реже всего встречается на практике? 😉
Anonymous Poll
20%
Data Engineer
54%
Data Librarian
26%
Data Scientist Strategist
🧠Researcher-ы в Data Science не создают продукты. Вместо этого они являются экспертами в постановке экспериментов, разработке новых методологий, техник и гипотез и доказательстве того, верны они или нет.

Как правило, они встречаются в академических кругах.

🧠Applied Researcher-ы того же уровня, что и Researcher-ы, но они также являются экспертами в применении своих знаний и внедрении масштабных решений. Таким образом, в то время как Researcher больше сосредоточен на научных открытиях, Applied Researcher больше интересуется реальными приложениями.

🧠Machine Learning Architect создает архитектуру, планирует внедрение решений, выбирает правильные технологии и оценивает эволюцию архитектуры по мере изменения потребностей.

🧠 Machine Learning Product Platform Engineer
Разрабатывает технологии для продвинутого обучения модели машинного обучения, например, BERT. Разрабатывает возможность быстрой замены сотен моделей в реальном времени. Разработка ML pipeline решений, используя Airflow, TFX, и Kubeflow.
Может ли машинное обучение спасать человеческие жизни уже в настоящее время?

Да, может и делает!

🙌🏼От несчастных случаев, которые приводят даже к летальным исходам, никто не застрахован. Но машинное обучение уже умеет предсказывать некоторые из них и тем самым спасать человеческие жизни.

Примеры использования ML для прогнозирования инцидентов с различными конструкциями:

🤖Департамент пожарной охраны Нью-Йорка использует прогнозную аналитику, чтобы отметить здания с самым высоким риском возгорания.

🤖Con Edison определяет люки с пятикратным средним риском опасных происшествий, таких как взрывы или пожары.

🤖В Чикаго определяются дома, в которых риск отравления свинцом более чем в два раза выше, чем в среднем. Это служит для предупреждения.

🤖Исследователи в области гражданского строительства предсказывают, какие мосты частично приходят в негодность. Делается это с помощью машинного обучения для автоматического обнаружения трещин в бетоне по автоматически отсканированным изображениям мостов.
Почему ML не предсказало недавнее обрушение моста в центре Минска (Беларусь)?😱
Anonymous Poll
53%
ML еще не используется в таких целях 😔
8%
ML не смогло предсказать 🤔
39%
ML предсказало, но никто не поверил 🙈
🤓MLOps — это идея объединения давно устоявшейся практики DevOps с новой областью машинного обучения.

Это создание среды для разработки моделей, переобучения моделей, drift monitoring, автоматизации pipeline, контроля качества и управления моделью на единой платформе.

🤓Machine Learning Product Manager сотрудничает с командами разработчиков, бизнесом и др.

Основные роли:
грамотность по использованию данных, чтобы оценивать данные, задавать правильные вопросы об этих данных и многое другое.

выявление проблем и определение тех, которые можно решить именно с помощью машинного обучения.

объяснимость - необходимо уметь объяснять сложные ML процессы простыми словами при общении с клиентами, руководством и др.

критерии приемки - умение создать надежные критерии приемки, чтобы настроить свои алгоритмы и модели ML для улучшения качества результатов.

ML PM-у необходимы знания в Data Science, математике, статистике и, в зависимости от проекта и компании - глубоком обучении и искусственном интеллекте.
👍1
ETL (Extract, Transform, Load) уже не удовлетворяет современные потребности при работе с данными?

ETL система используется для:
Сбора данных из разных источников;
Трансформации данных – преобразование форматов и кодировки, агрегации и очистки;
Записи преобразованных данных в систему хранения.

Одна из самых больших проблем, с которой сталкиваются компании, - это запуск моделей ML в производство.

Часто этот шаг занимает несколько недель.
Именно поэтому нужна новая система, которая будет интегрироваться с другими тех. решениями и быть удобной для конечного потребителя.

Такой системой может быть ELTIMS, где к системе ETL добавились новые шаги:
👉Insights
👉Model
👉Serve - функции обслуживания моделей ML.

Этап "Serve" важен, но он также не может существовать изолированно. В последнее время используется термин MLOps для обозначения запуска моделей в производство, но хорошая практика работы с данными выходит за рамки простого создания моделей, она является основополагающей для любого расширения бизнеса.
🧠Сэмплинг - важный этап в анализе данных. От того насколько правильно он будет выполнен, зависит успешность результата.

В ML сэмплинг стал механизмом формирования обучающих, тестовых и валидационных выборок, используемых при построении обучаемых моделей.

Процедура сэмплинга должна обеспечить два свойства выборки — репрезентативность и полноту.

Репрезентативность — способность выборки отражать зависимости и закономерности совокупности из которой она была извлечена.

Полнота — значит, что выборка должна содержать достаточное ко-во вариантов для построения модели, обладающей обобщающей способностью.

Методы сэмплинга делятся на 2 вида — детерминированные и вероятностные.

⭐️В детерминированных процесс формирования выборки производится в соответствии с заданными правилами. Например «выбрать учеников от 7 до 14 лет» - тогда все объекты, удовлетворяющие правилу, будут помещены в выборку обязательно.

В вероятностных для каждого объекта определяется вероятность, с которой он может быть взят в выборку.
Рассказать о главных алгоритмах сэмплинга?
Anonymous Poll
82%
Да!
18%
Конечно =)
1%
Я все знаю 😉
Главные алгоритмы сэмплинга, которые должен знать каждый Data Scientist:

1️⃣Simple Random Sampling - самый простой метод случайного сэмплинга, где каждый элемент датасета имеет равную вероятность быть отобранным в выборку.

Преимущества:
🔥минимальные знания о датасете;
🔥простота интерпретации результатов.

2️⃣Reservoir sampling - формирует подмножество из k элементов совокупности, называемое резервуаром. Изначально в него помещаются k первых элементов. Затем элементы перебираются последовательно до тех пор пока не будет достигнут конец ввода.

🔥Преимущество - не требуется знать размер совокупности и он всегда использует один и тот же объем памяти.
Недостаток — алгоритм работает достаточно медленно.

3️⃣ Stratified sampling. Стратификация — это разделение набора данных на несколько групп (страт) перед сэмплингом .

Использование стратифицированного сэмплинга позволяет снизить ошибку выборки, которая возникает из-за того, что анализ производится не на основе всей совокупности, а только на основе выборки.
2
4️⃣Random Oversampling.
Случайная переборка включает в себя выбор случайных примеров из класса меньшинства с заменой и дополнение обучающих данных несколькими копиями этого экземпляра, поэтому возможно, что один экземпляр может быть выбран несколько раз.

5️⃣Random Undersampling
Метод случайной неполной выборки противоположен методу случайной переборки. Этот метод направлен на случайный отбор и удаление примеров из класса большинства, что, соответственно, уменьшает количество примеров класса большинства в преобразованных данных.

6️⃣Undersampling и Oversampling с imbalanced-learn
(библиотека Python для борьбы с проблемами несбалансированных датасетов).
Cодержит несколько различных методов для проведения ресэмплинга:

Андерсэмплинг
🔶Tomek Links - удаление элемента пары из большего набора, которое позволит классификатору отработать лучше.
🔶Cluster Centroids
🔶NearMiss и др.

Oversampling со SMOTE:
🔶SMOTE - создаются элементы в непосредственной близости от уже существующих в меньшем наборе.
🔶ADASYN
🔶bSMOTE
👍1
🚔Автомобильные компании и военные используют ML, чтобы сделать вождение более безопасным.

🏎Беспилотные автомобили работают на основе ML, которое идентифицирует объекты поблизости, предсказывает их движения и оптимизирует навигацию.

🚉Железнодорожные компании предсказывают сломанные рельсы, которые являются основной причиной серьезных железнодорожных аварий, и отказы отдельных колес.

И морская индустрия остается на плаву, предсказывая, какие крупные корабли столкнутся с опасным происшествием. Каждый уровень риска рассчитывается по возрасту судна, типу, грузоподъемности, происхождению, собственности, управлению и другим факторам.

🛩Спрос на авиаперевозки продолжает расти быстрыми темпами, соответственно, управление воздушным движением становится все более сложным.

🤖Метод опорных векторов (SVM) используется для обнаружения конфликта нескольких самолетов в воздушном пространстве и определения вероятности конфликта.
👏1🎉1
А вы знали, что в нашем DWClub есть практические материалы про SVM, Sampling и многое другое? 😉 https://bit.ly/3BeA0XB
Anonymous Poll
28%
Да, я уже в клубе ;)
72%
Хочу в клуб -)
2 февраля мы запускаем онлайн-интенсив по Data Science.
Продолжительность - 5 дней 🦾.

Реальные данные магазина из Великобритании
100% практика
Автор интенсива - практик с опытом 14 лет в коммерческом программировании
Получите навыки по работе с языком Python
Создадите и обучите свои модели машинного обучения
Получите доступ к готовой среде (устанавливать ничего не нужно)
Получите опыт по работе с самыми популярными библиотеками для Python - Pandas, NumPy, Matplotlib
Получите опыт в feature engineering
Получите доступ к закрытой группе в Slack
Увидите как работает на практике золотой принцип Парето - какие 20% усилий нужно приложить, чтобы получить 80% результата

Только для первой 1000 записавшихся участие бесплатное.

Запись по ссылке >>>> https://bit.ly/3KYjZuE
🔥21👍1
7 февраля стартует 2-й выпуск нашего курса "Практическое введение в Python для Data Science" на русском языке.

Что получите от курса за 3 недели:

Изучите переменные и их типы, функции, циклы, словари, списки
Навыки по работе с одними из самых популярных и практически применимых библиотек для Python: NumPy, NumPy, Matplotlib и др.
Навыки по работе с векторами
Изучите группировку, сортировку, агрегирование, фильтрацию для работы с данными
Научитесь преобразовывать данные, управлять отсутствующими значениями, создавать сводные таблицы и кросс-таблицы
Навык по работе с реальными данными и др.

Кому подойдет курс:
🦾 Новичкам, которые хотят изучить самый популярный язык программирования, чтобы начать осваивать новую профессию в IT
🦾 Тем, кто хочет научиться применять Python для Data Science и Machine Learning

🔥 Приобретая данный курс, получаете скидку 25% на наш курс по Data Science.
4🔥2👍1🤔1
Готовы к новым испытаниям 😉?

В рамках DWClub мы запускаем 2-дневный бесплатный интенсив по прогнозированию оптимальных продаж с помощью машинного обучения.

👉 Старт - 10 февраля
👉 Продолжительность - 2 дня

В этот раз будем находить скрытые закономерности во временных рядах и делать оптимальные прогнозы в будущем в условиях неопределенности 🦾.

Будем использовать реальные данные магазина.

👍 Для участников клуба материал остается на все время подписки.

Запись по ссылке ЗДЕСЬ
🔥7🎉3👏1
Cтартовал первый выпуск курса по Time Series на русском языке.

Сегодня в 19:00 по Москве пройдет вебинар, посвященный старту курса.
Доступ к вебинару по ссылке ЗДЕСЬ

Это последний шанс присоединиться к курсу по временным рядам первого потока.
Следующий будет не раньше осени 😉.
🔥6👍2