DataWorkshop - AI & ML – Telegram
DataWorkshop - AI & ML
1.91K subscribers
204 photos
22 videos
13 files
150 links
Онлайн-обучение от европейской компании DataWorkshop.

Курсы по: Статистике, SQL, Python, Data Science, Нейронным сетям, Time Series, NLP.

Корпоративное обучение.

Помогаем внедрять машинное обучение в бизнес.

Сайт:
https://dataworkshop.ru
Download Telegram
Рекомендовать в будущем литературу для чтения? 🤓
Anonymous Poll
97%
Да - интересно
1%
Я и так все знаю ;)
2%
Не люблю читать
Python впервые за всю историю скоро может стать самым популярным языком программирования во всем мире. Ведь он уже почти догнал такие языки , как С и Java. 🦾

Согласно веб-сайту Stack Overflow, вопросы с тегом Python имеют максимальное количество просмотров в 2018 году в странах с высоким уровнем дохода. На первом фото виден огромный рост популярности языка Python за последние 5 лет.

Stack Overflow показывает, что с января 2016 года по август 2017 года темпы роста трафика Python увеличились на 27%. В то время как для JavaScript, C ++, Ruby, iOS и т. д. темпы роста снизились по сравнению с прошлыми несколькими годами.

TIOBE составляет рейтинг популярности языков программирования методом подсчета результатов поисковых запросов, связанных с программированием (результат на 2 фото).

У Python, похоже, есть все шансы стать номером один благодаря своему лидерству на рынке в быстро развивающейся области интеллектуального анализа данных и искусственного интеллекта», – сказал Янсен, ген. директор TIOBE.
Напоминаю, что уже 6 сентября мы впервые запускаем курс "Практическое введение в Python для Data Science" - на русском языке.
Это необычный курс по Python.

Это мини-курс, который позволит в сжатые сроки получить навыки в Python для дальнейшего его применения в Machine Learning и Data Science.

Это мой авторский курc, в который я собрал только те материалы, которые действительно, используют в рабочих проектах.

Я придерживаюсь правила 20/80 (чтобы 20% усилий приносили 80% результата) и давать те навыки и знания, которые сразу можно применять на практике - в своей работе.

Ведь "засорить мозг ненужным" никогда не было проблемой - особенно сейчас - в век "информационного ожирения".

Я же учу тому, что действительно работает на практике и делюсь лучшими техниками, которые сам применяю в работе. А поделиться мне есть чем - свой многолетний опыт я получал в европейских и американских компаниях разного масштаба 😉.

С завтрашнего дня цена на курс повышается - успей его приобрести по старой цене.

Успей купить курс по старой цене:

>>> https://bit.ly/3BGUkky <<<
DATAWORKSHOP-INSTAGRAM (3).png
56.3 KB
Владимир недавно записал подкаст со студентом со своего самого первого курса "Практическое машинное обучение с нуля" на тему: "Машинное обучение и кибербезопасность".

Сейчас Мирослав (наш студент) работает в "Santander Bank Polska" и использует искусственный интеллект для борьбы с киберпреступниками 😎.

Мирослав рассказал, как они построили модель машинного обучения (на основании 20000 транзакций, которые проходят за 1 банковский день), чтобы выловить из них мошеннические транзакции 🦸‍♂️

Что интересно - модели удается вылавливать 90% мошеннических транзакций. По рассказам Мирослава - бизнес ежедневно отсекает подозрительных 20-30 транзакций.

Дополнительная проверка таких транзакций показывает, что, действительно, ⅔ из них являются попыткой вымогательства 😮


Причем, используется довольно простая модель машинного обучения, но результаты впечатляют - не правда ли 😉

Подкаст записан на польском языке, но по ссылке можно почитать перевод на русском языке

https://bit.ly/3BRn4XU
Стоит ли Владимиру начать записывать подкасты уже и на русском языке?
Anonymous Poll
63%
Да, давно пора)
31%
Было бы здорово
5%
Буду учить польский, на русском не надо ))
Scikit-learn, бесплатная библиотека машинного обучения для языка программирования Python, анонсировала release candidate Scikit-learn 1.0 с основными обновлениями и исправлениями:

https://scikit-learn.org/dev/whats_new/v1.0.html

Scikit-Learn-одна из популярных программных библиотек машинного обучения. Библиотека использует NumPy, SciPy и Matplotlib и поддерживает обучение с учителем и без.

Она также предоставляет различные инструменты для подгонки модели, предварительной обработки данных, выбора и оценки модели.

Честно говоря, Владимир считает, что Scikit-learn является лучшей библиотекой в ML 😍 с точки зрения того, как мы думаем об API и простоте. Она меняет правила игры. И это (следующий 🤔 ) отличный пример, показывающий силу open source.

Scikit-learn - это своего рода стандарт, который изменил (упростил) жизнь в ML (причем не только в Python). Создатели 14 лет трудились, чтобы дойти до стабильной нумерации версии Scikit-learn.

Scikit-learn - это эталон простоты и мощной работы.
Кстати, если вы хотите начать использовать ML (в том числе узнать и о Scikit-learn), присоединяйтесь к курсу по ссылке: 😉
>>>> https://bit.ly/3jX02sH <<<<
15 основных функций библиотеки Pandas (часть 1)

Рассказываем о лучших функциях библиотеки Pandas. Эти функции стоит знать, чтобы по максимуму использовать библиотеку Pandas.


1️⃣Обработка данных
Библиотека Pandas предоставляет действительно быстрый и эффективный способ для работы с данными.

Pandas предоставляет нам Series и DataFrames, которые помогают не только эффективно представлять данные, но и манипулировать ими различными способами. Именно эти особенности Pandas делают ее такой привлекательной библиотекой для Data Scientist-ов.

2️⃣ Очистка данных
Работа с грязными данными неизбежна.Очистка данных - это часть процесса при работе с данными.
Чем чище данные, тем лучше результат.
Чрезвычайно важно очищать наши данные и с помощью Pandas это легко реализовать.

3️⃣ Маркировка данных
Данные бесполезны, если вы не знаете, где они находятся и о чем они нам говорят. Поэтому маркировка данных имеет первостепенное значение.

4️⃣ Обработка недостающих данных
Одна из многих проблем, связанных с данными, - это отсутствие данных или значений. Поэтому важно правильно обработать недостающие значения, чтобы они не искажали результаты нашего исследования.

5️⃣ Инструменты ввода и вывода
Pandas предоставляет широкий спектр встроенных инструментов для чтения и записи данных. Во время анализа вам, очевидно, потребуется читать и записывать данные в структуры данных, базы данных и т. д.

Это можно сделать чрезвычайно просто с помощью встроенных инструментов Pandas.

В следующих постах продолжим рассматривать функции в Pandas
6️⃣ Поддержка нескольких форматов файлов
Pandas поддерживает огромное количество разных форматов файлов (hdf5, csv, json, Excel и т. д.).

7️⃣ Объединение наборов данных
Pandas может помочь объединить различные наборы данных с максимальной эффективностью, что помогает получить оочный результат (без искажения).😱

8️⃣Оптимизированная производительность
Pandas высокоуровневая библиотека для анализа данных - построена поверх более низкоуровневой библиотеки NumPy (написана на Си), что является большим плюсом в производительности.

9️⃣ Поддержка Python
Python стал одним из самых востребованных языков программирования при анализе данных, т.к. имеет в своем распоряжении огромное количество библиотек. Pandas является частью Python и позволяет получать доступ к другим библиотекам (NumPy и MatPlotLib).

🔟 Большое количество временных рядов
Эти функции Pandas не будут иметь смысла для новичков сразу, но они будут очень полезны в будущем. Эти функции включают в себя статистику движущихся окон и преобразование частоты.
У нас для вас отличная новость 🥳

Многие из вас уже участвовали в нашем онлайн-интенсиве DWthon, где мы применяли ML при работе с данными магазина из Великобритании.

В предстоящие выходные (25 и 26 сентября) мы запускаем новый интенсив - Dwthon 2.0.
Будем прогнозировать цены на автомобили с помощью ML 🦾

Что вас ждет на 2-дневном интенсиве:
готовое окружение (Jupyter), в котором будем работать - устанавливать ничего не нужно
реальные данные
для начинающих дополнительная поддержка
создаете и тренируете свои модели машинного обучения
участвуете в конкурс в Kaggle и др.

Для первых 1000 записавшихся, участие абсолютно бесплатное, поспешите 😉

> https://bit.ly/3EFTy9O <
Наш интенсив "Прогнозирование цен на автомобили с помощью Machine Learning" стартовал 🚀.

На email отправлены данные для авторизации на сервере.
В Slack вся подробная информация с планом проведения интенсива.

Если вы еще не там - присоединяйтесь 🙂
Мы начинаем 🦾💪
Менее, чем через неделю стартует наш "Data Science курс с нуля".
Что даст курс:
Умение использовать язык Python для ML;
Знания, как применять наиболее эффективно используемые на практике библиотеки для работы с данными: Numpy , Pandas, Sklearn;
Научитесь работать с наиболее практически используемыми алгоритмами: Decision Trees, Random forest, XGboost, CatBoost и др.;
Навыки работы с методами: классификация и регрессия;
Навыки работы с инженерией признаков (Feature engineering).
Научитесь тюнить (подбирать) параметры эффективно, а не просто "в лоб";
Узнаете, что такое переобучение и как с этим бороться;
Познакомитесь с возможными видами валидаций моделей машинного обучения;
Познакомитесь с кривой обучения и поймешь;
Познакомитесь с различными метриками успеха и поймешь в чем их разница ;
Создадим портфолио;

Более 1000 наших студентов из разных стран мира уже работают в сфере Data Science.

Следующий выпуск такого курса будет не скоро и уже по другой цене 😱.

Регистрация 👉 ЗДЕСЬ👈
Сегодня (1 октября) в 19:00 по Москве пройдет вебинар, посвященный подведению итогов интенсива "Прогнозирование цен на авто с помощью ML".

Вебинар проведет Владимир вместе с участниками интенсива, результаты которых вошли в ТОП 5 на конкурсе в Kaggle 🏆.

Участники поделятся своим опытом и расскажут, как им удалось добиться таких хороших результатов 🦾.

Ссылка на вебинар здесь:
👉 https://bit.ly/3Ab9NbP 👈

Не пропустите 😉
В предыдущих постах мы уже рассмотрели 10 основных функций в Pandas.

Сегодня рассмотрим 5 последних:

1️⃣ Визуализация данных - важная часть науки о данных. Это то, что делает результаты исследования понятными человеческому глазу. У Pandas есть встроенная возможность создания разных графиков.

2️⃣ Группировка
Функция GroupBy() позволяет разбить данные на отдельные группы для выполнения вычислений для лучшего анализа.

3️⃣ Уникальные данные
При анализе данных очень важно уметь отбирать именно уникальные значения. Функция dataset.column.unique () (где «dataset» и «column» - это имена набора данных и столбца соответственно) позволяет видеть уникальные значения в наборе данных.

4️⃣ Данные по маске
Возможность отфильтровать данные для достижения конкретных целей - важный инструмент. В Pandas функция mask() позволяет это сделать.

5️⃣ Выполнять математические операции с данными
Функция apply() - одна из самых привлекательных особенностей Pandas. Она позволяет манипулировать данными.
4 октября 2021 вышел релиз Python - 3.10.

Приведем самые интересные обновления из последней версии:

1️⃣Улучшенные сообщения об ошибках
Более точные сообщения об ошибках для многих распространенных проблем.

2️⃣Предложены новые встроенные функции aiter() и anext() с реализацией асинхронных аналогов функциям iter() и next().

3️⃣Реализованы операторы "match" и "case" для сопоставления с образцом, которые позволяют улучшить читаемость кода, упростить сопоставление произвольных Python-объектов и повысить надёжность кода.

4️⃣Предоставлена возможность использования круглых скобок в операторе with для разнесения на несколько строк определения коллекции контекстных менеджеров.

5️⃣Для отладочных инструментов и профилировщиков обеспечено указание в событиях трассировки точных номеров строк выполненного кода.

6️⃣ В модулях hashlib и ssl добавлена поддержка OpenSSL 3.0.0 и прекращена поддержка версий OpenSSL меньше 1.1.1.

7️⃣ Объявлен устаревшим модуль distutils, который запланирован для удаления в Python 3.12.
Открываем тренажерный зал в рамках клуба DataWorkshop - DWgym 💪 😉

Будем тренироваться, но на Python 💪, а вашим личным тренером будет Владимир Алексейченко 😎

Вы тоже можете писать код на Python! И если до сих пор что-то мешало вам начать или первый шаг позади вас, но все еще сложно написать функцию или цикл на Python, то мы приглашаем в наш DWClub и тренажерный зал питона 😉

Во вторник, 26 октября стартует трехдневный тренинг по Python, который даст вам больше, чем месяцы самостоятельной работы.

Вы получаете 50+ заданий, и мы тренируемся вместе, как в спортзале. Хотя у нас появится эффект уже через 3 дня и спортивная экипировка не нужна 😉

Внимание! Участники DWClub получат дополнительные задания и неограниченный доступ к материалам. Если вы хотите тренироваться у нас более 3 дней, присоединяйтесь к DWClub - развитие гарантировано и на разных уровнях 🙂

Ссылки для регистрации на 3-дневный DWgym и DWClub:

👉 DWgym - https://bit.ly/30LoJkB
👉 DWClub - https://bit.ly/30LXlTD
Важное событие 😉

Для наших подписчиков DWClub в эти выходные (30 и 31 октября) будет проходить конкурс в Kaggle "Прогнозирование опозданий трамваев в Кракове c помощью ML".

Для конкурса мы подготовили:
реальные данные
стартеры, которые помогут в решении задач для конкурса

Данный конкурс - отличный шанс попрактиковаться в применении языка Python на практике и создании моделей машинного обучения для решения конкретной задачи.

Именно такие навыки нужны специалисту в Data Science в рабочих проектах.

Начало завтра в 10-00 по Москве. В течение 2-х дней заниматься можно в любое удобное время. 31 октября в 23:59 будет подведение итогов конкурса.

Проведите выходные с пользой 🦾

Ссылка на оформление подписки в DWClub - https://bit.ly/30LXlTD