DataWorkshop - AI & ML – Telegram
DataWorkshop - AI & ML
1.91K subscribers
204 photos
22 videos
13 files
150 links
Онлайн-обучение от европейской компании DataWorkshop.

Курсы по: Статистике, SQL, Python, Data Science, Нейронным сетям, Time Series, NLP.

Корпоративное обучение.

Помогаем внедрять машинное обучение в бизнес.

Сайт:
https://dataworkshop.ru
Download Telegram
🌏В последнее время (особенно после пандемии) все чаще можно услышать, что весь мир уходит в онлайн.

Что это значит? Перед людьми открываются невероятные возможности! По удаленке можно работать во многих компаниях мира.

А специалисты с навыками Machine Learning в западных странах мира пользуются просто огромной популярностью и востребованностью.

Работая по удаленке на компании “с Запада” и не только, как правило, нужен еще и английский язык. И мы решили пойти еще дальше.

🤖Поскольку наша компания фокусируется только на проектах по машинному обучению, мы решили найти такого же крутого партнера, но уже по обучению английскому.

🇺🇸Основное преимущество партнера - у них уже большой опыт преподавания английского для работников в сфере IT. Но вскоре расскажем более подробно обо всем.

🤝А пока просим пройти опрос, который поможет нашему партнеру лучше изучить ваши потребности в изучении английского языка.

Ссылка на опросник - https://bit.ly/3y3NbbS
Периодически нам приходят от вас вопросы - что почитать, особенно перед стартом курсов.

Хотим порекомендовать вот эти 2 книги, которые написал Жерон Орельен (их можно читать всем желающим, кто хочет начать изучать машинное обучение):

Прикладное машинное обучение с помощью Scikit-Learn, Keras TensorFlow.

Из этой книги узнаете основы машинного обучения на сквозном проекте с применением Scikit-Learn и Pandas, построите и обучите нейронные сети и др.

В каждой главе есть упражнения, которые помогут закрепить на практике полученные знания, причем весь код из книги доступен на GitHub.


Python Data Science Handbook
В этой книге можно поближе познакомиться с библиотеками Pandas, NumPy, Matplotlib, а также в ней есть отдельный блок, посвященный машинному обучению.

Эта книга бесплатная, вот ссылка - http://bit.ly/2UNA92t

Ребята - кто идет на наши курсы, предупреждаем - на курсах будет интенсивно и будет много дополнительной бесплатной информации - эти книги во время курсов некогда будет читать 🤗
Рекомендовать в будущем литературу для чтения? 🤓
Anonymous Poll
97%
Да - интересно
1%
Я и так все знаю ;)
2%
Не люблю читать
Python впервые за всю историю скоро может стать самым популярным языком программирования во всем мире. Ведь он уже почти догнал такие языки , как С и Java. 🦾

Согласно веб-сайту Stack Overflow, вопросы с тегом Python имеют максимальное количество просмотров в 2018 году в странах с высоким уровнем дохода. На первом фото виден огромный рост популярности языка Python за последние 5 лет.

Stack Overflow показывает, что с января 2016 года по август 2017 года темпы роста трафика Python увеличились на 27%. В то время как для JavaScript, C ++, Ruby, iOS и т. д. темпы роста снизились по сравнению с прошлыми несколькими годами.

TIOBE составляет рейтинг популярности языков программирования методом подсчета результатов поисковых запросов, связанных с программированием (результат на 2 фото).

У Python, похоже, есть все шансы стать номером один благодаря своему лидерству на рынке в быстро развивающейся области интеллектуального анализа данных и искусственного интеллекта», – сказал Янсен, ген. директор TIOBE.
Напоминаю, что уже 6 сентября мы впервые запускаем курс "Практическое введение в Python для Data Science" - на русском языке.
Это необычный курс по Python.

Это мини-курс, который позволит в сжатые сроки получить навыки в Python для дальнейшего его применения в Machine Learning и Data Science.

Это мой авторский курc, в который я собрал только те материалы, которые действительно, используют в рабочих проектах.

Я придерживаюсь правила 20/80 (чтобы 20% усилий приносили 80% результата) и давать те навыки и знания, которые сразу можно применять на практике - в своей работе.

Ведь "засорить мозг ненужным" никогда не было проблемой - особенно сейчас - в век "информационного ожирения".

Я же учу тому, что действительно работает на практике и делюсь лучшими техниками, которые сам применяю в работе. А поделиться мне есть чем - свой многолетний опыт я получал в европейских и американских компаниях разного масштаба 😉.

С завтрашнего дня цена на курс повышается - успей его приобрести по старой цене.

Успей купить курс по старой цене:

>>> https://bit.ly/3BGUkky <<<
DATAWORKSHOP-INSTAGRAM (3).png
56.3 KB
Владимир недавно записал подкаст со студентом со своего самого первого курса "Практическое машинное обучение с нуля" на тему: "Машинное обучение и кибербезопасность".

Сейчас Мирослав (наш студент) работает в "Santander Bank Polska" и использует искусственный интеллект для борьбы с киберпреступниками 😎.

Мирослав рассказал, как они построили модель машинного обучения (на основании 20000 транзакций, которые проходят за 1 банковский день), чтобы выловить из них мошеннические транзакции 🦸‍♂️

Что интересно - модели удается вылавливать 90% мошеннических транзакций. По рассказам Мирослава - бизнес ежедневно отсекает подозрительных 20-30 транзакций.

Дополнительная проверка таких транзакций показывает, что, действительно, ⅔ из них являются попыткой вымогательства 😮


Причем, используется довольно простая модель машинного обучения, но результаты впечатляют - не правда ли 😉

Подкаст записан на польском языке, но по ссылке можно почитать перевод на русском языке

https://bit.ly/3BRn4XU
Стоит ли Владимиру начать записывать подкасты уже и на русском языке?
Anonymous Poll
63%
Да, давно пора)
31%
Было бы здорово
5%
Буду учить польский, на русском не надо ))
Scikit-learn, бесплатная библиотека машинного обучения для языка программирования Python, анонсировала release candidate Scikit-learn 1.0 с основными обновлениями и исправлениями:

https://scikit-learn.org/dev/whats_new/v1.0.html

Scikit-Learn-одна из популярных программных библиотек машинного обучения. Библиотека использует NumPy, SciPy и Matplotlib и поддерживает обучение с учителем и без.

Она также предоставляет различные инструменты для подгонки модели, предварительной обработки данных, выбора и оценки модели.

Честно говоря, Владимир считает, что Scikit-learn является лучшей библиотекой в ML 😍 с точки зрения того, как мы думаем об API и простоте. Она меняет правила игры. И это (следующий 🤔 ) отличный пример, показывающий силу open source.

Scikit-learn - это своего рода стандарт, который изменил (упростил) жизнь в ML (причем не только в Python). Создатели 14 лет трудились, чтобы дойти до стабильной нумерации версии Scikit-learn.

Scikit-learn - это эталон простоты и мощной работы.
Кстати, если вы хотите начать использовать ML (в том числе узнать и о Scikit-learn), присоединяйтесь к курсу по ссылке: 😉
>>>> https://bit.ly/3jX02sH <<<<
15 основных функций библиотеки Pandas (часть 1)

Рассказываем о лучших функциях библиотеки Pandas. Эти функции стоит знать, чтобы по максимуму использовать библиотеку Pandas.


1️⃣Обработка данных
Библиотека Pandas предоставляет действительно быстрый и эффективный способ для работы с данными.

Pandas предоставляет нам Series и DataFrames, которые помогают не только эффективно представлять данные, но и манипулировать ими различными способами. Именно эти особенности Pandas делают ее такой привлекательной библиотекой для Data Scientist-ов.

2️⃣ Очистка данных
Работа с грязными данными неизбежна.Очистка данных - это часть процесса при работе с данными.
Чем чище данные, тем лучше результат.
Чрезвычайно важно очищать наши данные и с помощью Pandas это легко реализовать.

3️⃣ Маркировка данных
Данные бесполезны, если вы не знаете, где они находятся и о чем они нам говорят. Поэтому маркировка данных имеет первостепенное значение.

4️⃣ Обработка недостающих данных
Одна из многих проблем, связанных с данными, - это отсутствие данных или значений. Поэтому важно правильно обработать недостающие значения, чтобы они не искажали результаты нашего исследования.

5️⃣ Инструменты ввода и вывода
Pandas предоставляет широкий спектр встроенных инструментов для чтения и записи данных. Во время анализа вам, очевидно, потребуется читать и записывать данные в структуры данных, базы данных и т. д.

Это можно сделать чрезвычайно просто с помощью встроенных инструментов Pandas.

В следующих постах продолжим рассматривать функции в Pandas
6️⃣ Поддержка нескольких форматов файлов
Pandas поддерживает огромное количество разных форматов файлов (hdf5, csv, json, Excel и т. д.).

7️⃣ Объединение наборов данных
Pandas может помочь объединить различные наборы данных с максимальной эффективностью, что помогает получить оочный результат (без искажения).😱

8️⃣Оптимизированная производительность
Pandas высокоуровневая библиотека для анализа данных - построена поверх более низкоуровневой библиотеки NumPy (написана на Си), что является большим плюсом в производительности.

9️⃣ Поддержка Python
Python стал одним из самых востребованных языков программирования при анализе данных, т.к. имеет в своем распоряжении огромное количество библиотек. Pandas является частью Python и позволяет получать доступ к другим библиотекам (NumPy и MatPlotLib).

🔟 Большое количество временных рядов
Эти функции Pandas не будут иметь смысла для новичков сразу, но они будут очень полезны в будущем. Эти функции включают в себя статистику движущихся окон и преобразование частоты.
У нас для вас отличная новость 🥳

Многие из вас уже участвовали в нашем онлайн-интенсиве DWthon, где мы применяли ML при работе с данными магазина из Великобритании.

В предстоящие выходные (25 и 26 сентября) мы запускаем новый интенсив - Dwthon 2.0.
Будем прогнозировать цены на автомобили с помощью ML 🦾

Что вас ждет на 2-дневном интенсиве:
готовое окружение (Jupyter), в котором будем работать - устанавливать ничего не нужно
реальные данные
для начинающих дополнительная поддержка
создаете и тренируете свои модели машинного обучения
участвуете в конкурс в Kaggle и др.

Для первых 1000 записавшихся, участие абсолютно бесплатное, поспешите 😉

> https://bit.ly/3EFTy9O <
Наш интенсив "Прогнозирование цен на автомобили с помощью Machine Learning" стартовал 🚀.

На email отправлены данные для авторизации на сервере.
В Slack вся подробная информация с планом проведения интенсива.

Если вы еще не там - присоединяйтесь 🙂
Мы начинаем 🦾💪
Менее, чем через неделю стартует наш "Data Science курс с нуля".
Что даст курс:
Умение использовать язык Python для ML;
Знания, как применять наиболее эффективно используемые на практике библиотеки для работы с данными: Numpy , Pandas, Sklearn;
Научитесь работать с наиболее практически используемыми алгоритмами: Decision Trees, Random forest, XGboost, CatBoost и др.;
Навыки работы с методами: классификация и регрессия;
Навыки работы с инженерией признаков (Feature engineering).
Научитесь тюнить (подбирать) параметры эффективно, а не просто "в лоб";
Узнаете, что такое переобучение и как с этим бороться;
Познакомитесь с возможными видами валидаций моделей машинного обучения;
Познакомитесь с кривой обучения и поймешь;
Познакомитесь с различными метриками успеха и поймешь в чем их разница ;
Создадим портфолио;

Более 1000 наших студентов из разных стран мира уже работают в сфере Data Science.

Следующий выпуск такого курса будет не скоро и уже по другой цене 😱.

Регистрация 👉 ЗДЕСЬ👈
Сегодня (1 октября) в 19:00 по Москве пройдет вебинар, посвященный подведению итогов интенсива "Прогнозирование цен на авто с помощью ML".

Вебинар проведет Владимир вместе с участниками интенсива, результаты которых вошли в ТОП 5 на конкурсе в Kaggle 🏆.

Участники поделятся своим опытом и расскажут, как им удалось добиться таких хороших результатов 🦾.

Ссылка на вебинар здесь:
👉 https://bit.ly/3Ab9NbP 👈

Не пропустите 😉
В предыдущих постах мы уже рассмотрели 10 основных функций в Pandas.

Сегодня рассмотрим 5 последних:

1️⃣ Визуализация данных - важная часть науки о данных. Это то, что делает результаты исследования понятными человеческому глазу. У Pandas есть встроенная возможность создания разных графиков.

2️⃣ Группировка
Функция GroupBy() позволяет разбить данные на отдельные группы для выполнения вычислений для лучшего анализа.

3️⃣ Уникальные данные
При анализе данных очень важно уметь отбирать именно уникальные значения. Функция dataset.column.unique () (где «dataset» и «column» - это имена набора данных и столбца соответственно) позволяет видеть уникальные значения в наборе данных.

4️⃣ Данные по маске
Возможность отфильтровать данные для достижения конкретных целей - важный инструмент. В Pandas функция mask() позволяет это сделать.

5️⃣ Выполнять математические операции с данными
Функция apply() - одна из самых привлекательных особенностей Pandas. Она позволяет манипулировать данными.
4 октября 2021 вышел релиз Python - 3.10.

Приведем самые интересные обновления из последней версии:

1️⃣Улучшенные сообщения об ошибках
Более точные сообщения об ошибках для многих распространенных проблем.

2️⃣Предложены новые встроенные функции aiter() и anext() с реализацией асинхронных аналогов функциям iter() и next().

3️⃣Реализованы операторы "match" и "case" для сопоставления с образцом, которые позволяют улучшить читаемость кода, упростить сопоставление произвольных Python-объектов и повысить надёжность кода.

4️⃣Предоставлена возможность использования круглых скобок в операторе with для разнесения на несколько строк определения коллекции контекстных менеджеров.

5️⃣Для отладочных инструментов и профилировщиков обеспечено указание в событиях трассировки точных номеров строк выполненного кода.

6️⃣ В модулях hashlib и ssl добавлена поддержка OpenSSL 3.0.0 и прекращена поддержка версий OpenSSL меньше 1.1.1.

7️⃣ Объявлен устаревшим модуль distutils, который запланирован для удаления в Python 3.12.