NEW BOT Телеграм, страница

#statistics

Сегодня поговорим об особенностях теста Манна-Уитни.

https://telegra.ph/O-Manne-Uitni-zamolvite-slovo-10-11

Telegraph

О Манне-Уитни замолвите слово.

Сегодня поговорим про тест Манна-Уитни (Mann-Whitney U rank test). Много вопросов и споров возникает при его использовании. Посему, будем разбираться, что там в предпосылках, что проверяется и вообще и чем речь. Итак, критерий достаточно старый, в 1945 его…

22 views22:42

Интересное что-то

#ml

18 views14:30

Интересное что-то

Forwarded from Data Science Private Sharing

#Tip27 #Train

При K-fold валидации прогнозы делаются на тестовых частях, которые не участвуют в обучении и эти прогнозы называются Out-of-Fold (OOF) Predictions.

Обычно они используются по прямому назначению - оценки модели.
Но можно их задействовать и более интересным способом - для стэкинга.

Стэкинг это способ построения ансамбля моделей, в котором есть базовые модели и есть мета модель.
Базовые модели обучаются на исходных данных, а мета-модель на предсказаниях базовых моделей.
Обычно для построения стекинга исходный датасет делится на несколько крупных частей из-за чего все модели увидят меньше данных. Но благодаря Out-of-Fold Predictions можно реализовать обучение на всех (почти) данных.

В соревновательном DS алгоритм в целом такой:
1. Разбиваем датасет с метками на трейн и эвал + у нас уже есть тестовый датасет от организаторов.
2. Трейн разбиваем на фолды.
3. Для каждого фолда:
- Обучаем модель на тренировочной части.
- Выполняем предсказание для тестовой части фолда и сохраняем предсказание в отдельный вектор, каждый элемент которого соответствует строке тренировочного датасета.
- Выполняем предсказание для валидационного датасета.
- Выполняем предсказание для тестового датасета.
4. Собранные предсказания на фолдах передаем в мета-модель как фичу.
5. Усредняем предсказания полученные для валидационного и тестового датасета.
6. С помощью мета-модели делаем предсказание для усредненных значений валидационного и тестового датасета.
7. Значения полученные для валидационного датасета используем для оценки, а значения полученные для тестового датасета заворачиваем в сабмит.

Реализуется данный алгоритм обычно вручную.

Варианты для изменений:
- На фолдах можно обучить несколько видов базовых моделей, тогда на вход мета-модели пойдет несколько фичей.
- На шаге обучения мета-модели можно присоединить фичи-предсказания к исходным фичам.

Для большей эффективности ансамбля для базовых и мета-модели стараются задействовать разные алгоритмы (линейные/KNN/деревья).

15 views14:30

Интересное что-то

#dl

14 views08:23

Интересное что-то

Forwarded from Варим МЛ

Все знают, что при обучении сеток каждую эпоху надо шаффлить датасет. А есть ли смысл ещё как-то влиять на процесс сэмплинга данных? Может быть!

#Жека #machinelearning

Telegraph

А вы, друзья, как ни садитесь...

Любой, кто хоть раз обучал нейронки, знает, что принято на каждой эпохе шаффлить датасет, чтобы не повторялся порядок батчей. А зачем это делать? Обычно это объясняют тем, что шаффлинг улучшает генерализацию сетей, делает точнее эстимейт градиента на батчах…

16 views08:23

Интересное что-то

#ml

16 views19:02

Интересное что-то

Forwarded from ИЦ "ГЕВИССТА"

Пепе Берба
Объяснение работы HDBSCAN и алгоритмов кластеризации на основе плотности

Перейти и скачать

16 views19:02

Интересное что-то

#ml

20 views16:39

Интересное что-то

Forwarded from ИЦ "ГЕВИССТА"

Признаки для временных рядов – скользящие разности
Обычно в прогнозировании временных рядов используют два вида скользящих разностей. Тестовую часть защищаете от протечек значениями NaN.

# считаем скользящие разности между максимальным
# и минимальным значениями окна, окно шириной 4,
# c лагом 1

data['rolling_diff4_max_min'] = data['sales'].shift(periods=1).rolling(
    window=4, min_periods=1).apply(lambda x: max(x) - min(x))

# вручную считаем скользящие разности между последним и
# первым значениями окна, окно шириной 4, с лагом 1

data['rolling_diff4_last_frst'] = data['sales'].shift(periods=1).rolling(
    window=4, min_periods=1).apply(lambda x: x.iloc[-1] - x.iloc[0])

Ну и куда без подводных камней. Последняя разность между максимальным и минимальным значениями в тестовой части всегда будет равна 0, обычно нулевое значение заменяют последней разностью между максимальным и минимальным значениями в обучающей части. Разности между последним и первым значениями в тестовой части получат пропуски, обычно их заменяют нулями. Разности применяйте для градиентных бустингов. Они либо не работают вовсе, либо работают очень хорошо, резко улучшая качество модели. Я использую их в работе, они хорошо работали вот в этом соревновании https://www.kaggle.com/competitions/store-sales-time-series-forecasting/overview. В книге по рядам подробнее покажу примеры использования.

Kaggle

Store Sales - Time Series Forecasting

Use machine learning to predict grocery sales

18 views16:39

Интересное что-то

#mlops

16 views22:43

Интересное что-то

Forwarded from Mark Andreev

https://mymlops.com/ конструктор mlops стека

18 views22:43

Интересное что-то

#nlp

18 views22:45

Интересное что-то

Forwarded from Дмитрий Колодезев

http://ceur-ws.org/Vol-2135/SEIM_2018_paper_30.pdf обзор до-бертовских подходов. и я бы попробовал RAKE для начала, что-то типа https://github.com/vgrabovets/multi_rake (не обязательно его, он руками пишется нетрудно)
Чтобы было, с чем сравнивать KeyBERT

23 views22:45

Интересное что-то

#quant

22 views22:50

Интересное что-то

Forwarded from Dmitrii

По пункту 3 в копилочку. По мотивам книги Advances in Financial Machine Learning.

GitHub

GitHub - BlackArbsCEO/Adv_Fin_ML_Exercises: Experimental solutions to selected exercises from the book [Advances in Financial Machine…

Experimental solutions to selected exercises from the book [Advances in Financial Machine Learning by Marcos Lopez De Prado] - BlackArbsCEO/Adv_Fin_ML_Exercises

23 views22:50

Интересное что-то

#interesting
Генератор картинок

https://neural.love/ai-art-generator

neural.love

Free AI Art Generator – Create Unlimited Art | neural.love

Transform ideas into stunning AI-generated art with neural.love's free online image generator. Text to image, no skills needed. Start creating now!

18 views09:32

Интересное что-то

#python

18 views13:31

Интересное что-то

Forwarded from Кодим на Коленке | Уроки по программированию

Создаем свою соцсеть на Django

Хороший способ прокачать себя в знании Django — поднять свою соцсеть. Это довольно глубокий курс, займет много-много часов, но если вы пройдете его до конца и не бросите — почувствуете сильный прогресс.

Подробнее: 👉 тут

#видео #python

17 views13:31

Интересное что-то

#ml

18 views16:38

Интересное что-то

Forwarded from ИЦ "ГЕВИССТА"

Часть_3_17_3_Комбинирование_нескольких_методов_для_отбора_признаков.ipynb

1.2 MB

Из предстоящей книги по предварительной подготовке данных

Часть 3_17.3._Комбинирование нескольких методов для отбора признаков (задача Porto Seguro’s Safe Driver Prediction с Kaggle)

16 views16:38

Интересное что-то

#interesting

18 views21:36

About

Blog

Apps

Platform