NEW BOT Телеграм, страница - 284705170

Machine Learning

25 subscribers

12 photos

3 files

181 links

Собираем информацию про машинное обучение, нейросети

Download Telegram

About

Blog

Apps

Platform

Machine Learning

Machine Learning

Forwarded from Big Data Science [RU]

🌷Третий – не лишний: к LightGBM и XGBoost присоединился еще один ML-алгоритм вероятностного прогнозирования - Natural Gradient Boosting (NGBoost). Выпущенный в 2019 году, NGBoost состоит из трех абстрактных модулей: базового обучающегося, параметрического распределения вероятностей и оценочных правил. Все три компонента рассматриваются как гиперпараметры, выбранные заранее перед обучением. NGBoost упрощает вероятностную регрессию с помощью гибких древовидных моделей и позволяет проводить вероятностную классификацию, возвращая вероятности по каждому классу. Например, логистическая регрессия возвращает вероятности классов в качестве выходных данных. Эксперименты с несколькими наборами данных регрессии доказали, что NGBoost обеспечивает конкурентоспособные прогностические характеристики как оценок неопределенности, так и традиционных показателей. С другой стороны, его время вычисления намного больше, чем у других двух алгоритмов, и нет некоторых полезных опций, например, отсутствует ранний останов, отображение промежуточных результатов, гибкость выбора базового обучающегося параметра, установка случайного начального состояния. Несмотря на то, что пока можно работать лишь с деревом решений и регрессией Риджа, этот ML-алгоритм вероятностного прогнозирования показывает весьма достойные результаты в сравнении с другими популярными градиентными методами.
Подробнее о том, как работает NGBoost, читайте здесь:
http://www.51anomaly.org/pdf/NGBOOST.pdf
https://medium.com/@ODSC/using-the-ngboost-algorithm-8d337b753c58
https://towardsdatascience.com/ngboost-explained-comparison-to-lightgbm-and-xgboost-fda510903e53
https://www.groundai.com/project/ngboost-natural-gradient-boosting-for-probabilistic-prediction/1

54 views08:15

Machine Learning

Forwarded from Start Career in DS

Мне тут недавно пришлось очень плотно поработать с временными рядами, нашел супер-крутую библиотеку от Facebook для этого:
https://facebook.github.io/prophet/

Пишут, что хорошо работает с рядами, в которых выражена сезонность. Имеет очень удобный интерфейс и позволяет находу отрисовывать красивые графики

Prophet is a forecasting procedure implemented in R and Python. It is fast and provides completely automated forecasts that can be tuned by hand by data scientists and analysts.

47 views21:59

Machine Learning

Forwarded from Start Career in DS

Каждый уважающий себя DS гоняет xgboost :)
Но далеко не каждый понимает что означают те или иные его параметры. Вот статья, в которой рассказывают про смысл большинства из них:
https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

Analytics Vidhya

XGBoost Parameters Tuning

Explore XGBoost parameters and hyperparameter tuning like learning rate, depth of trees, regularization, etc. to improve model accuracy.

50 views18:48

Machine Learning

Forwarded from Пристанище Дата Сайентиста

#полезно #пост_от_подписчика

Мне тут подписчик @Aykhan_txt прислал крутой пост

Год Работы на Google Colab

Google Colab — это бесплатный облачный сервис на основе Jupyter Notebook, который дает возможность работать на GPU или TPU. Здесь я расскажу об основных минусах и как я с ними боролся.

Поговорим об ограничениях. Вместе с ними буду предлагать пути решения:

1) Время работы сессии только до 12 часов. После чего, нужно будет перезапускать блокнот. Все данные, которые были на диске благополучно исчезнут.
Поэтому, предлагаю вам подключить к Colab еще и Google Drive и сохранять все логи и веса моделей туда. После отключения блокнота все важные данные у вас будут на вашем Google Drive.

2) При длительном бездействии (30-60 минут) следует отключение блокнота.
Решение этой проблемы можно найти в приложенном jupyter notebook

3) При постоянном использовании (примерно 3-4 дня подряд) доступ к быстрым видеокартам закрывается и для ваших сессий будут выделены более медленные графические процессоры. В некоторых случаях может доступ к GPU закрыт полностью. Для восстановления прежних мощностей придется подождать до 2 суток.
Для себя я нашел решение в переменном использовании Kaggle блокнотов и Colab. Kaggle имеет те же самые параметры и дает возможность использовать сервис 30 часов в неделе (иногда даже больше).

4) Ограниченный объем памяти 60-80 гб.
Решения для этой проблемы я не нашел в рамках самого Colab и я просто пользовался Kaggle, так как там проще подключать датасеты.

5) Загрузка данных с локального компьютера на диск очень медленная.
Лучше всего грузить данные с интернета через команды !wget, !git clone.

6) Очень медленная работа с Google Drive. Если Ваш датасет находится на Гугл диске, знайте, данные оттуда грузятся очень медленно. Лучше все грузить на диск Colab или же сразу в оперативную память

Полезный ноутбук: https://colab.research.google.com/drive/1-6Q3YjFdeLfqSWXuVvdLsl0pUc1nT4Gi#scrollTo=h9qy2qPehifB

Colab tips.ipynb

Colaboratory notebook

62 views21:35

Machine Learning

Forwarded from Хроники ботки (Aleksei Shestov 𓆏)

AutoML это алгоритмы, которые подбирают алгоритм, параметры и их комбинации специально для конкретного датасета. То есть такая замена дата саентиста. Сбербанк выпустил свой опенсорсный автомл фреймворк на питоне, призываю все пользоваться, шарить и распространять :) Александр Рыжков, Дмитрий Симаков и их коллеги разрабатывают автомл в Сбере, они уже делали доклад в декабре
https://www.youtube.com/watch?v=ci8uqgWFJGg&list=PLYeFZ_T6PUrILcK5rKHlb9PdBp-ySitUN,
а сейчас можно посмотреть участие автомл в каггл соревнование и его выигрыш относительно других автомл
https://www.kaggle.com/alexryzhkov/tps-april-21-lightautoml-starter (не жалейте ваши апвоуты этому ноутбуку на каггле :)

Проект в опенсорсе - https://github.com/sberbank-ai-lab/LightAutoML
И бенчмарки: https://github.com/sberbank-ai-lab/automlbenchmark/tree/lightautoml

Александр Рыжков, Дмитрий Симаков - АвтоМЛ LightAutoML (или коротко LAMA)

LightAutoML (или коротко LAMA) - новая библиотека для автоматизации построения ML моделей. Мы расскажем, для решения каких задач создавался наш LightAutoML, чем он выделяется на фоне конкурентов и какую пользу способен принести пользователям и бизнесу.
…

72 views19:04

Machine Learning

Отличная статья по использованию ML в Ecommerce https://www.icicletech.com/blog/ai-ml-changing-ecommerce

Icicle - Web & Mobile App Development on Ruby on Rails, React Native, Elixir

8 Ways AI and ML are Changing eCommerce in 2020

eCommerce developers are changing the game with artificial intelligence and machine learning, providing new kinds of customer service and increasing sales. Here’s 8 ways AI and ML are changing online shopping for good.

61 views19:15

Machine Learning

Forwarded from TechSparks

Во-первых, хорошие популярные материалы про машинное обучение — увы, редкость. Тем более — оригинальные отечественные.
Во-вторых, я очень люблю все материалы, к которым имеет отношение Саша Крайнов: не просто отличный эксперт, но и талантливый фантазёр и отличный рассказчик.
Вот вам прекрасный ролик с достойным названием «Гадание на датасетах»;)

https://youtu.be/zUlm0MKquKo

Гадание на датасетах: машинное обучение

Беспилотные автомобили, обработка естественного языка, компьютерное зрение и даже искусство развиваются благодаря машинному обучению. И оно не стоит на месте — учёные постоянно совершенствуют существующие алгоритмы и создают новые подходы.

Чтобы поддержать…

88 views06:17

Machine Learning

https://www.machinelearningmastery.ru/from-zero-to-hero-in-xgboost-tuning-e48b59bfaf58/

machinelearningmastery.ru

От нуля до героя в XGBoost Tuning

105 views07:20

Machine Learning

https://www.machinelearningmastery.ru/interpretable-machine-learning-with-xgboost-9ec80d148d27/

www.machinelearningmastery.ru

Интерпретируемое машинное обучение с XGBoost

Статьи, вопросы и ответы на тему: машинное обучение, нейронные сети, искусственный интеллект

95 views07:24

Machine Learning

https://proglib.io/p/feature-selector/

Библиотека программиста

FeatureSelector: отбор признаков для машинного обучения на Python

Поиск и отбор признаков в исходных данных является важнейшим этапом обучения. Рассмотрим 5 методов выборки и один удобный инструмент.

85 views07:25

Machine Learning

Forwarded from Data Science Guy

Очень хорошие видосы, не могу не поделиться:
Samsung релизнул курс из 16 (и еще будут) разных лекций про нейронки https://news.samsung.com/ru/samsung-ai-innovation-campus
у них есть:
1. очень крутая лекция про ГАНы с более-менее строгими выводами
и про img2img ганы
2. всякие детекции/сегментации/оптические потоки/поиски по картинкам
3. как ускорять и запускать на телефонах
4. даже нейрорендеренг чуть-чуть
5. как ставить эксперименты и участвовать в соревнованиях
и вообще много разного

смотреть тут:
https://www.youtube.com/playlist?list=PLJEYfuHbcEIB-DdeoWaQ6Bzt0903kbmWK

Samsung открывает цикл лекций по Искусственному интеллекту в рамках Samsung Innovation Campus

В рамках трека «Искусственный Интеллект» проекта «IT Академия Samsung» открывается цикл

85 views14:42

Machine Learning

Forwarded from Ian Pilé

https://medium.com/@vktech/practitioners-guide-to-statistical-tests-ed2d580ef04f

Practitioner’s Guide to Statistical Tests

Hi, we are Nikita and Daniel from the CoreML team at VK. It’s our job to design and improve recommender systems for friends, music, videos…

100 views21:47

Machine Learning

Forwarded from Small Data Science for Russian Adventurers

C4. Data Science Interview.pdf

#карьера
Вопросы для DS-собеседования

62 views22:06

Machine Learning

Forwarded from Small Data Science for Russian Adventurers

C4. Data Science Interview.pdf

#карьера
Вопросы для DS-собеседования

39 views21:56

Machine Learning

Forwarded from Sberloga (Alexander C)

🚀 @sberloga рекомендует онлайн доклад по NLP (Natural Language Processing) на семинаре ВШЭ
Телеграм канал семинара ВШЭ: @nlp_seminar
👨‍🔬 Владислав Михайлов (Сбер), Екатерина Такташева (ВШЭ), Элина Сигдал (ВШЭ) “RuSentEval: диагностическое тестирование языковых моделей на русском языке”
⌚️ Четверг 3 июня в 19.00 по Москве.

RuSentEval – это новый набор данных для диагностического тестирования (probing) векторных и языковых моделей для русского языка. Набор включает в себя 14 датасетов, которые покрывают различные лингвистические явления – от поверхностных (число слов в предложении) до синтаксических (глубина синтаксического дерева) и семантических (число и род подлежащего). Классический метод диагностического тестирования – обучить классификатор, который предсказывает наличие того или иного явления по вектору предложения. Поведение классификатора может показать, например, какие слои языковой модели более чувствительны к низкоуровневым признакам, а какие – к высокоуровневым.

В работе мы использовали данные RuSentEval и SentEval (английский язык), чтобы провести диагностическое тестирование пяти мультиязычных трансформеров – в том числе mBERT, mBART и LABSE – и узнали, что модели имеют похожее представление о некоторых признаках для обоих языков, несмотря на их типологические различия. А вот mBART и LABSE отличаются от остальных (как именно – читайте в статье).
Репозиторий с кодом и данными доступен по ссылке (https://github.com/RussianNLP/rusenteval).

GitHub - RussianNLP/RuSentEval: Probing suite for evaluation of Russian embedding and language models

Probing suite for evaluation of Russian embedding and language models - RussianNLP/RuSentEval

65 views19:07

Machine Learning

Forwarded from DATApedia | Data science

Организуем платформу обработки потоковых данных из Kafka, Spark и Greenplum

Источник

Организуем платформу обработки потоковых данных из Kafka, Spark и Greenplum

Привет, Хабр! Меня зовут Иван Хозяинов, а работаю в ITSumma, где изучаю и применяю технологии, связанные с большими данными, машинным обучением и аналитикой. В этой статье хочу рассказать о системе...

80 views07:04

Machine Learning

Forwarded from Valerii

вот тут хорошо написано

Интерактивная визуализация данных при помощи Plotly: строим красивые графики с Express и Cufflinks

Если Вы все еще используете Matplotlib для создания графиков в Python, самое время взглянуть на мир с высоты альтернативной библиотеки интерактивной визуализации. Plotly позволяет создавать...

88 views21:45

Machine Learning

Forwarded from Big Data Science [RU]

👍🏻Будьте здоровы с DCNN!
В течение многих лет врачи полагались на визуальный осмотр для выявления подозрительных пигментных поражений (SPL), которые могут указывать на рак кожи. Выявление SPL на ранней стадии помогает оперативно выявить меланомы и значительно снизить стоимость лечения. Но быстро найти SPL и определить их важность не так-то просто из-за большого объема пигментных поражений. Исследователи из MIT разработали новый ИИ-конвейер на глубоких сверточных нейросетях (DCNN, deep convolutional neural networks) и реализовали его для анализа SPL через камеру обычного смартфона. Система автоматически обнаруживает, извлекает и анализирует все пигментные поражения кожи, наблюдаемые на широкоугольном фотоснимке. Предварительно обученные ML-модели DCNN определяют подозрительность отдельных пигментных образований и маркируют их: нужен дальнейший осмотр - желтым, требуется направление к дерматологу - красным. Извлеченные признаки используются для последующей оценки пигментных поражений и отображения результатов в виде тепловой карты. Напомним, DCNN – это алгоритмы глубокого обучения, которые используются для классификации изображений с последующей их кластеризацией, например, при поиске по фотографиям.
https://news.mit.edu/2021/artificial-intelligence-tool-can-help-detect-melanoma-0402

An artificial intelligence tool that can help detect melanoma

An artificial intelligence system can efficiently detect melanoma, a type of skin cancer. MIT researchers used deep convolutional neural networks (DCNNs) to quickly analyze wide-field photos of patients’ bodies.

106 views20:27

Machine Learning

Forwarded from DATApedia | Data science

Диаграмма Сэнкей (Sankey diagram) на Python

Источник

Диаграмма Сэнкей (Sankey diagram) на Python

Я занимаюсь аналитикой данных в Aliradar. Мы не представлены на Хабре, но у меня поднакопился материал, которым хотелось бы поделиться. Написать эту статью меня сподвигло отсутствие годных гайдов по построению диаграммы Сэнкей с использованием python на русском…

118 views21:23

Machine Learning

Forwarded from Пристанище Дата Сайентиста

#подборка

Всем привет 🚀! За несколько последних дней на канале добавилось очень много новых подписчиков. Рад вас приветствовать на канале. Канал активно развивается, пробую разные форматы и тематики.

Для всех подписчиков и особенно для тех кто к нам присоединился недавно, я решил сформировать тематические подборки старых постов. Постараюсь подборки обновлять, так что получится крутая навигация по каналу.

Пишете в комментариях о чём было бы интересно почитать.🗣️

👨🏻‍💻 Про курсы и обучение хэштег #course

Обзор онлайн-курсов DS/ML личный опыт - часть 1
Deep Learning курсы личный опыт
Какие еще курсы пройти пока вкатываешься в DS/ML?
Как бесплатно получить сертификат на coursera
Прокачиваемся до computer vision researcher

🚊 Production хэштег #production

Machine learning в продакшн — Flask REST API (пост в блоге)
Streamlit - быстрый способ создать приложение для работы с данными
Chalice - фреймворк для написания бессерверных приложений на Python
BentoML

👍 Полезное хэштег #полезно

Visual Studio Code для Data Science
Тестовые задания от разных компаний, на позицию, связанную с Data Scientist
Computer Vision Leaderboard
Модель для сегментации легких на рентгене от меня и моих коллег
Пост в блоге про выбор логирования в Python

⚒️ Много разных интересных python библиотек хэштег #library

albumentations - Библиотека быстрых аугментаций изображений
Dostoevsky - Библиотека анализ тональности текста для русского языка
Newspaper3k - библиотека для извлечения метаданных новостей, полных текстов и статей
scikit-uplift - это модуль Python для классических подходов к моделированию uplift, построенный на основе scikit-learn
SHAP (SHapley Additive exPlanations)
Great Expectations библиотека, которая помогает тестировать данные

📝 Задачки на канале хэштег #task

RFM-анализ
Когортный анализ
Monthly Recurring Revenue

👩‍🔬 Еще отдельно хочу рассказать про свой бесплатный мини курс , где вы изучите основы анализа медицинских изображений с помощью Python. Вы будете изучать КТ и рентген снимки, сегментировать области изображения и проводить анализ метаданных. Даже если вы никогда раньше не работали с медицинскими изображениями, то по завершению курса вы будете обладать всеми необходимы навыками.
Пока курс бесплатный, но скоро станет платным. Все кто успеют записать буду проходить его бесплатно.

198 views15:03

Machine Learning

Forwarded from DATApedia | Data science

Docker для Data Scientist'a

Источник

Docker для Data Scientist'a

ВведениеЧасто у начинающих Data Scientists возникает вопрос, как демонстрировать работу своих моделей другим людям. Банальный пример - прикрепить ссылку на гитхаб репозиторий в отклике на вакансию или...

204 views07:01