DataWorkshop - AI & ML – Telegram
DataWorkshop - AI & ML
1.91K subscribers
204 photos
22 videos
13 files
150 links
Онлайн-обучение от европейской компании DataWorkshop.

Курсы по: Статистике, SQL, Python, Data Science, Нейронным сетям, Time Series, NLP.

Корпоративное обучение.

Помогаем внедрять машинное обучение в бизнес.

Сайт:
https://dataworkshop.ru
Download Telegram
Совсем скоро наступит Новый год🎄.
А вы еще не решили как порадовать себя или своих близких?🎁

Курсы от DataWorkshop - это отличный подарок для всех.
Ведь это не просто подарок, а инвестиция в будущее 🤗.

Сейчас наши курсы для Data Science можно приобрести со скидкой до 40%.

Новогодняя распродажа продлится всего 6 дней - c 26 по 31 декабря.

Пусть наступающий год принесет новые возможности, а свое развитие в области Data Science можно спокойно доверить DataWorkshop.

Все в ваших руках ❤️

Здесь приобретают лучшие подарки 👉 https://bit.ly/3Fu4OWR
Как думаете, какие места в 🏆 ТОП 22 🏆 среди трендовых технологий 2022 года занимают Artificial Intelligence и Data Science? Чуть позже пришлем правильный ответ 😉
Anonymous Poll
28%
3 и 2
43%
1 и 2
11%
4 и 5
17%
1 и 3
А вот и правильный ответ 🙂
Что ждет Machine Learning и Data Science в ближайшем будущем по мнению практиков и экспертов? 🤔

В последнем выпуске 2021 года подкаста «Деловые мысли» вы найдете 5 мнений экспертов, которые работают в сфере Data Science.

Послушать/почитать на польском можно здесь 👉 https://bit.ly/3pyktyO

Или в русском переводе здесь 👉 https://bit.ly/345BzMn
Станет ли машинное обучение еще более доступным и популярным?
Anonymous Poll
64%
Конечно!
30%
Похоже на то :)
6%
Вряд ли :(
🧠Data Science - одна из мощных технологических тенденций, которая перестраивает многочисленные бизнес-процессы и операции по всему миру. Поскольку объемы данных продолжают расти, компании ищут новые инновационные способы оптимизации науки о данных.

📈Ожидается, что объем рынка платформ Data Science вырастет с 37,9 млрд $ в 2019 году до 140,9 млрд $ к 2024 году.

Текущий рынок программного обеспечения для BI и аналитики оценивается в 16 млрд $ по всему миру.

👉10 лучших трендов и прогнозов в области Data Science, которые будут определять развитие цифрового мира в 2022 году:

1️⃣Data Science в облаке - использование публичных и частных облачных сервисов.

2️⃣Предсказательная аналитика .

3️⃣Data-As-A-Service (DaaS).

4️⃣Облачная автоматизация и гибридные облачные сервисы.

5️⃣Кибербезопасность.

6️⃣Фокусирование на Edge Intelligence.

7️⃣Масштабируемый ИИ.

​​8️⃣Блокчейн в Data Science.

9️⃣Демократизация искусственного интеллекта и науки о данных.

🔟Клинические методы лечения и борьба с пандемией.
Новый год - новые данные 🥳
А это значит, что будет над чем поработать🦾

Команда DataWorkshop желает в новом году мира, добра и бодрости духа 🙌
Обязательно идите к своей цели и пусть все получится. А мы всегда вам поможем достигать целей в области Data Science и Machine Learning.

Сегодня последний день, когда можно ухватить наши курсы со скидкой до 40%.

Если не получилось в этом году попасть на наши курсы и начать строить карьеру в Data Science, обязательно стоит сделать это в следующем - чем раньше вы начнете, тем проще это будет сделать.

Ссылка на самое выгодное приобретение курсов здесь:
👉 https://bit.ly/3Fu4OWR

До встречи в новом году!❤️
В Data Science НЕ только Data Scientist-ы 😎. И вот какие роли можно выделить на практике:

1️⃣Data Engineer
2️⃣Data Librarian
3️⃣Data Scientist Strategist
4️⃣Researcher (Hard Sciences Background)
5️⃣Applied Researcher (Hybrid Sci-Tech Background)
6️⃣ Machine Learning Architect
7️⃣ Machine Learning Product Platform Engineer
8️⃣ Machine Learning Automation Platform Engineer
9️⃣ MLOps Engineer
🔟 Machine Learning Quality/Reliability Engineer
1️⃣1️⃣ Machine Learning Product Manager
1️⃣2️⃣ Machine Learning Ethics and Compliance Analyst
1️⃣3️⃣ Machine Learning Educator
1️⃣4️⃣ Machine Learning Evangelist/User Advocate
1️⃣5️⃣ Data Scientist Leader
1️⃣6️⃣ C Suite Data Scientist (CDS, CDO, CDAO и др.)
А вы все эти роли знали или можете еще дополнить?😉
Anonymous Poll
92%
Уххх, как их много 🤗
4%
Я все знаю 🦾
4%
Могу дополнить😇
Data Engineer-ы cоздают системы, которые собирают, управляют и преобразовывают необработанные данные в полезную информацию для интерпретации Data Scientist-ми и аналитиками.

Их конечная цель — сделать данные доступными для оценки и оптимизации работы.

Data Librarian занимаются
сохранением данных, созданием и обслуживанием систем, обеспечивающих доступ, поиск и потенциальное повторное использование соответствующих данных для дальнейшего использования.

Хотя самим библиотекарям не нужно разбираться в тонкостях методов науки о данных, они могут служить распорядителями этой информации и способствовать обучению в этой области.

Data Strategist превращает бизнес-требования к данным в готовый продукт, совмещая роли системного аналитика, менеджера проектов и технолога в процессах сбора и обработки информации.

Data Strategist работает, в первую очередь, с людьми, и лишь потом – с данными, выступая в роли универсального транслятора между бизнесом и техническими специалистами в каждой точке data pipeline’а.
Как думаете, какая из этих ролей реже всего встречается на практике? 😉
Anonymous Poll
20%
Data Engineer
54%
Data Librarian
26%
Data Scientist Strategist
🧠Researcher-ы в Data Science не создают продукты. Вместо этого они являются экспертами в постановке экспериментов, разработке новых методологий, техник и гипотез и доказательстве того, верны они или нет.

Как правило, они встречаются в академических кругах.

🧠Applied Researcher-ы того же уровня, что и Researcher-ы, но они также являются экспертами в применении своих знаний и внедрении масштабных решений. Таким образом, в то время как Researcher больше сосредоточен на научных открытиях, Applied Researcher больше интересуется реальными приложениями.

🧠Machine Learning Architect создает архитектуру, планирует внедрение решений, выбирает правильные технологии и оценивает эволюцию архитектуры по мере изменения потребностей.

🧠 Machine Learning Product Platform Engineer
Разрабатывает технологии для продвинутого обучения модели машинного обучения, например, BERT. Разрабатывает возможность быстрой замены сотен моделей в реальном времени. Разработка ML pipeline решений, используя Airflow, TFX, и Kubeflow.
Может ли машинное обучение спасать человеческие жизни уже в настоящее время?

Да, может и делает!

🙌🏼От несчастных случаев, которые приводят даже к летальным исходам, никто не застрахован. Но машинное обучение уже умеет предсказывать некоторые из них и тем самым спасать человеческие жизни.

Примеры использования ML для прогнозирования инцидентов с различными конструкциями:

🤖Департамент пожарной охраны Нью-Йорка использует прогнозную аналитику, чтобы отметить здания с самым высоким риском возгорания.

🤖Con Edison определяет люки с пятикратным средним риском опасных происшествий, таких как взрывы или пожары.

🤖В Чикаго определяются дома, в которых риск отравления свинцом более чем в два раза выше, чем в среднем. Это служит для предупреждения.

🤖Исследователи в области гражданского строительства предсказывают, какие мосты частично приходят в негодность. Делается это с помощью машинного обучения для автоматического обнаружения трещин в бетоне по автоматически отсканированным изображениям мостов.
Почему ML не предсказало недавнее обрушение моста в центре Минска (Беларусь)?😱
Anonymous Poll
53%
ML еще не используется в таких целях 😔
8%
ML не смогло предсказать 🤔
39%
ML предсказало, но никто не поверил 🙈
🤓MLOps — это идея объединения давно устоявшейся практики DevOps с новой областью машинного обучения.

Это создание среды для разработки моделей, переобучения моделей, drift monitoring, автоматизации pipeline, контроля качества и управления моделью на единой платформе.

🤓Machine Learning Product Manager сотрудничает с командами разработчиков, бизнесом и др.

Основные роли:
грамотность по использованию данных, чтобы оценивать данные, задавать правильные вопросы об этих данных и многое другое.

выявление проблем и определение тех, которые можно решить именно с помощью машинного обучения.

объяснимость - необходимо уметь объяснять сложные ML процессы простыми словами при общении с клиентами, руководством и др.

критерии приемки - умение создать надежные критерии приемки, чтобы настроить свои алгоритмы и модели ML для улучшения качества результатов.

ML PM-у необходимы знания в Data Science, математике, статистике и, в зависимости от проекта и компании - глубоком обучении и искусственном интеллекте.
👍1
ETL (Extract, Transform, Load) уже не удовлетворяет современные потребности при работе с данными?

ETL система используется для:
Сбора данных из разных источников;
Трансформации данных – преобразование форматов и кодировки, агрегации и очистки;
Записи преобразованных данных в систему хранения.

Одна из самых больших проблем, с которой сталкиваются компании, - это запуск моделей ML в производство.

Часто этот шаг занимает несколько недель.
Именно поэтому нужна новая система, которая будет интегрироваться с другими тех. решениями и быть удобной для конечного потребителя.

Такой системой может быть ELTIMS, где к системе ETL добавились новые шаги:
👉Insights
👉Model
👉Serve - функции обслуживания моделей ML.

Этап "Serve" важен, но он также не может существовать изолированно. В последнее время используется термин MLOps для обозначения запуска моделей в производство, но хорошая практика работы с данными выходит за рамки простого создания моделей, она является основополагающей для любого расширения бизнеса.
🧠Сэмплинг - важный этап в анализе данных. От того насколько правильно он будет выполнен, зависит успешность результата.

В ML сэмплинг стал механизмом формирования обучающих, тестовых и валидационных выборок, используемых при построении обучаемых моделей.

Процедура сэмплинга должна обеспечить два свойства выборки — репрезентативность и полноту.

Репрезентативность — способность выборки отражать зависимости и закономерности совокупности из которой она была извлечена.

Полнота — значит, что выборка должна содержать достаточное ко-во вариантов для построения модели, обладающей обобщающей способностью.

Методы сэмплинга делятся на 2 вида — детерминированные и вероятностные.

⭐️В детерминированных процесс формирования выборки производится в соответствии с заданными правилами. Например «выбрать учеников от 7 до 14 лет» - тогда все объекты, удовлетворяющие правилу, будут помещены в выборку обязательно.

В вероятностных для каждого объекта определяется вероятность, с которой он может быть взят в выборку.
Рассказать о главных алгоритмах сэмплинга?
Anonymous Poll
82%
Да!
18%
Конечно =)
1%
Я все знаю 😉
Главные алгоритмы сэмплинга, которые должен знать каждый Data Scientist:

1️⃣Simple Random Sampling - самый простой метод случайного сэмплинга, где каждый элемент датасета имеет равную вероятность быть отобранным в выборку.

Преимущества:
🔥минимальные знания о датасете;
🔥простота интерпретации результатов.

2️⃣Reservoir sampling - формирует подмножество из k элементов совокупности, называемое резервуаром. Изначально в него помещаются k первых элементов. Затем элементы перебираются последовательно до тех пор пока не будет достигнут конец ввода.

🔥Преимущество - не требуется знать размер совокупности и он всегда использует один и тот же объем памяти.
Недостаток — алгоритм работает достаточно медленно.

3️⃣ Stratified sampling. Стратификация — это разделение набора данных на несколько групп (страт) перед сэмплингом .

Использование стратифицированного сэмплинга позволяет снизить ошибку выборки, которая возникает из-за того, что анализ производится не на основе всей совокупности, а только на основе выборки.
2