NEW BOT Телеграм, страница

Forwarded from Этюды для программистов на Python (Дима Федоров)

По многочисленным просьбам подготовил переводы про визуализацию и обработку данных для ML 🐍

👉 Эффективное использование Matplotlib

👉 Руководство по кодированию категориальных значений в Python

Приятного чтения! 🐼

PS. остальные переводы и кейсы по ссылке ⚡️

28 views09:43

Machine Learning

Отличная статья про лучшие методы выбора фич в ML: https://rubikscode.net/2020/11/15/top-9-feature-engineering-techniques/

Rubik's Code

Top 9 Feature Engineering Techniques with Python

In this article, we explore several optimization techniques and implement them in Python from scratch.

45 viewsedited 20:41

Machine Learning

Forwarded from Davidovs Sharing

http://ai.google/education Гугл собрал крутой ресурс для обучения ML

Google AI

Understanding AI: AI tools, training, and skills

Google offers various AI-powered programs, training, and tools to help advance your skills. Develop AI skills and view available resources.

43 views09:14

Machine Learning

https://proglib.io/p/40-voprosov-po-statistike-s-sobesedovaniya-na-dolzhnost-data-scientist-2020-09-24

Библиотека программиста

🎲 40 вопросов по статистике с собеседований на должность Data Scientist

49 views09:48

Machine Learning

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📈 Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?

Рассказываем про ключевые математические знания для Data Scientist, а также про книги, курсы и видеолекции в помощь обучающимся. Материал будет полезен не только осваивающим профессию с нуля новичкам, опытные специалисты также могут почерпнуть в нем что-то интересное.

https://proglib.io/sh/RKNBTerypS

35 views21:41

Machine Learning

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Вводная статья о нейронных сетях.

https://proglib.io/w/d11ee805

Medium

Understanding Neural Networks. From neuron to RNN, CNN, and Deep Learning

Neural Networks is one of the most popular machine learning algorithms at present. It has been decisively proven over time that neural networks outperform other algorithms in accuracy and speed. With…

33 views21:42

Machine Learning

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Этапы изучения науки о данных.

https://proglib.io/w/6e51c718

Medium

The Stages of Learning Data Science

How to get “unstuck” at key learning points

39 views21:44

Machine Learning

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 ТОП-10 необходимых для специалиста по Big Data навыков

Рассказываем о необходимом наборе технических и карьерных навыков для специалиста по Big Data.

https://proglib.io/sh/wQnkljYm9G

43 views21:46

Machine Learning

Forwarded from Sberloga (🇻 🇱 🇦 🇩)

Ребята,

Позавчера случилось знаменательное событие - открытой библиотеке для обработки естественного языка DeepPavlov, 5 февраля исполнилось 3 года!
Было много интересных докладов https://deeppavlov.ai/events/3year
Трансляцию можно посмотреть тут https://youtu.be/LkvioWrgo5E
Ребята обещали в течении недели всю ее нарезать и выложить на свой канал 👍
Но а я, как человек который в очередной раз все пропустил, начну смотреть в "режиссерской" версии 😅

@sberloga

deeppavlov.ai

DeepPavlov 3 года

Встреча пользователей и разработчиков открытой библиотеки DeepPavlov 2021

44 views21:31

Machine Learning

Forwarded from Big Data Science [RU]

🌷Третий – не лишний: к LightGBM и XGBoost присоединился еще один ML-алгоритм вероятностного прогнозирования - Natural Gradient Boosting (NGBoost). Выпущенный в 2019 году, NGBoost состоит из трех абстрактных модулей: базового обучающегося, параметрического распределения вероятностей и оценочных правил. Все три компонента рассматриваются как гиперпараметры, выбранные заранее перед обучением. NGBoost упрощает вероятностную регрессию с помощью гибких древовидных моделей и позволяет проводить вероятностную классификацию, возвращая вероятности по каждому классу. Например, логистическая регрессия возвращает вероятности классов в качестве выходных данных. Эксперименты с несколькими наборами данных регрессии доказали, что NGBoost обеспечивает конкурентоспособные прогностические характеристики как оценок неопределенности, так и традиционных показателей. С другой стороны, его время вычисления намного больше, чем у других двух алгоритмов, и нет некоторых полезных опций, например, отсутствует ранний останов, отображение промежуточных результатов, гибкость выбора базового обучающегося параметра, установка случайного начального состояния. Несмотря на то, что пока можно работать лишь с деревом решений и регрессией Риджа, этот ML-алгоритм вероятностного прогнозирования показывает весьма достойные результаты в сравнении с другими популярными градиентными методами.
Подробнее о том, как работает NGBoost, читайте здесь:
http://www.51anomaly.org/pdf/NGBOOST.pdf
https://medium.com/@ODSC/using-the-ngboost-algorithm-8d337b753c58
https://towardsdatascience.com/ngboost-explained-comparison-to-lightgbm-and-xgboost-fda510903e53
https://www.groundai.com/project/ngboost-natural-gradient-boosting-for-probabilistic-prediction/1

54 views08:15

Machine Learning

Forwarded from Start Career in DS

Мне тут недавно пришлось очень плотно поработать с временными рядами, нашел супер-крутую библиотеку от Facebook для этого:
https://facebook.github.io/prophet/

Пишут, что хорошо работает с рядами, в которых выражена сезонность. Имеет очень удобный интерфейс и позволяет находу отрисовывать красивые графики

Prophet

Prophet is a forecasting procedure implemented in R and Python. It is fast and provides completely automated forecasts that can be tuned by hand by data scientists and analysts.

47 views21:59

Machine Learning

Forwarded from Start Career in DS

Каждый уважающий себя DS гоняет xgboost :)
Но далеко не каждый понимает что означают те или иные его параметры. Вот статья, в которой рассказывают про смысл большинства из них:
https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

Analytics Vidhya

XGBoost Parameters Tuning

Explore XGBoost parameters and hyperparameter tuning like learning rate, depth of trees, regularization, etc. to improve model accuracy.

50 views18:48

Machine Learning

Forwarded from Пристанище Дата Сайентиста

#полезно #пост_от_подписчика

Мне тут подписчик @Aykhan_txt прислал крутой пост

Год Работы на Google Colab

Google Colab — это бесплатный облачный сервис на основе Jupyter Notebook, который дает возможность работать на GPU или TPU. Здесь я расскажу об основных минусах и как я с ними боролся.

Поговорим об ограничениях. Вместе с ними буду предлагать пути решения:

1) Время работы сессии только до 12 часов. После чего, нужно будет перезапускать блокнот. Все данные, которые были на диске благополучно исчезнут.
Поэтому, предлагаю вам подключить к Colab еще и Google Drive и сохранять все логи и веса моделей туда. После отключения блокнота все важные данные у вас будут на вашем Google Drive.

2) При длительном бездействии (30-60 минут) следует отключение блокнота.
Решение этой проблемы можно найти в приложенном jupyter notebook

3) При постоянном использовании (примерно 3-4 дня подряд) доступ к быстрым видеокартам закрывается и для ваших сессий будут выделены более медленные графические процессоры. В некоторых случаях может доступ к GPU закрыт полностью. Для восстановления прежних мощностей придется подождать до 2 суток.
Для себя я нашел решение в переменном использовании Kaggle блокнотов и Colab. Kaggle имеет те же самые параметры и дает возможность использовать сервис 30 часов в неделе (иногда даже больше).

4) Ограниченный объем памяти 60-80 гб.
Решения для этой проблемы я не нашел в рамках самого Colab и я просто пользовался Kaggle, так как там проще подключать датасеты.

5) Загрузка данных с локального компьютера на диск очень медленная.
Лучше всего грузить данные с интернета через команды !wget, !git clone.

6) Очень медленная работа с Google Drive. Если Ваш датасет находится на Гугл диске, знайте, данные оттуда грузятся очень медленно. Лучше все грузить на диск Colab или же сразу в оперативную память

Полезный ноутбук: https://colab.research.google.com/drive/1-6Q3YjFdeLfqSWXuVvdLsl0pUc1nT4Gi#scrollTo=h9qy2qPehifB

Google

Colab tips.ipynb

Colaboratory notebook

62 views21:35

Machine Learning

Forwarded from Хроники ботки (Aleksei Shestov 𓆏)

AutoML это алгоритмы, которые подбирают алгоритм, параметры и их комбинации специально для конкретного датасета. То есть такая замена дата саентиста. Сбербанк выпустил свой опенсорсный автомл фреймворк на питоне, призываю все пользоваться, шарить и распространять :) Александр Рыжков, Дмитрий Симаков и их коллеги разрабатывают автомл в Сбере, они уже делали доклад в декабре
https://www.youtube.com/watch?v=ci8uqgWFJGg&list=PLYeFZ_T6PUrILcK5rKHlb9PdBp-ySitUN,
а сейчас можно посмотреть участие автомл в каггл соревнование и его выигрыш относительно других автомл
https://www.kaggle.com/alexryzhkov/tps-april-21-lightautoml-starter (не жалейте ваши апвоуты этому ноутбуку на каггле :)

Проект в опенсорсе - https://github.com/sberbank-ai-lab/LightAutoML
И бенчмарки: https://github.com/sberbank-ai-lab/automlbenchmark/tree/lightautoml

YouTube

Александр Рыжков, Дмитрий Симаков - АвтоМЛ LightAutoML (или коротко LAMA)

LightAutoML (или коротко LAMA) - новая библиотека для автоматизации построения ML моделей. Мы расскажем, для решения каких задач создавался наш LightAutoML, чем он выделяется на фоне конкурентов и какую пользу способен принести пользователям и бизнесу.
…

72 views19:04

Machine Learning

Отличная статья по использованию ML в Ecommerce https://www.icicletech.com/blog/ai-ml-changing-ecommerce

Icicle - Web & Mobile App Development on Ruby on Rails, React Native, Elixir

8 Ways AI and ML are Changing eCommerce in 2020

eCommerce developers are changing the game with artificial intelligence and machine learning, providing new kinds of customer service and increasing sales. Here’s 8 ways AI and ML are changing online shopping for good.

61 views19:15

Machine Learning

Forwarded from TechSparks

Во-первых, хорошие популярные материалы про машинное обучение — увы, редкость. Тем более — оригинальные отечественные.
Во-вторых, я очень люблю все материалы, к которым имеет отношение Саша Крайнов: не просто отличный эксперт, но и талантливый фантазёр и отличный рассказчик.
Вот вам прекрасный ролик с достойным названием «Гадание на датасетах»;)

https://youtu.be/zUlm0MKquKo

YouTube

Гадание на датасетах: машинное обучение

Беспилотные автомобили, обработка естественного языка, компьютерное зрение и даже искусство развиваются благодаря машинному обучению. И оно не стоит на месте — учёные постоянно совершенствуют существующие алгоритмы и создают новые подходы.

Чтобы поддержать…

88 views06:17

Machine Learning

https://www.machinelearningmastery.ru/from-zero-to-hero-in-xgboost-tuning-e48b59bfaf58/

machinelearningmastery.ru

От нуля до героя в XGBoost Tuning

105 views07:20

Machine Learning

https://www.machinelearningmastery.ru/interpretable-machine-learning-with-xgboost-9ec80d148d27/

www.machinelearningmastery.ru

Интерпретируемое машинное обучение с XGBoost

Статьи, вопросы и ответы на тему: машинное обучение, нейронные сети, искусственный интеллект

95 views07:24

Machine Learning

https://proglib.io/p/feature-selector/

Библиотека программиста

FeatureSelector: отбор признаков для машинного обучения на Python

Поиск и отбор признаков в исходных данных является важнейшим этапом обучения. Рассмотрим 5 методов выборки и один удобный инструмент.

85 views07:25

Machine Learning

Forwarded from Data Science Guy

Очень хорошие видосы, не могу не поделиться:
Samsung релизнул курс из 16 (и еще будут) разных лекций про нейронки https://news.samsung.com/ru/samsung-ai-innovation-campus
у них есть:
1. очень крутая лекция про ГАНы с более-менее строгими выводами
и про img2img ганы
2. всякие детекции/сегментации/оптические потоки/поиски по картинкам
3. как ускорять и запускать на телефонах
4. даже нейрорендеренг чуть-чуть
5. как ставить эксперименты и участвовать в соревнованиях
и вообще много разного

смотреть тут:
https://www.youtube.com/playlist?list=PLJEYfuHbcEIB-DdeoWaQ6Bzt0903kbmWK

Samsung

Samsung открывает цикл лекций по Искусственному интеллекту в рамках Samsung Innovation Campus

В рамках трека «Искусственный Интеллект» проекта «IT Академия Samsung» открывается цикл

85 views14:42

Machine Learning

Forwarded from Ian Pilé

https://medium.com/@vktech/practitioners-guide-to-statistical-tests-ed2d580ef04f

Medium

Practitioner’s Guide to Statistical Tests

Hi, we are Nikita and Daniel from the CoreML team at VK. It’s our job to design and improve recommender systems for friends, music, videos…

100 views21:47

About

Blog

Apps

Platform