NEW BOT Телеграм, страница

Forwarded from asisakov

Что перепробовать для улучшения моделей

Сегодня на работе обсуждали мл модельку и накидали возможные варианты ее улучшения. Предположим, что все возможные данные мы собрали и обучаем логистическую регрессию по специфичным соображениям.
Не думаю, что предложения прям сильно улучшат метрики, но думаю это будет полезно проговорить. Далее оригинальный текст от меня.

Какие варианты улучшения предложили:

1. Рассматриваем корреляцию наших признаков с таргетом, а так же попарно
2. При работе с OHE (one-hot-encoding):
2.1. Удаляем один из сгенерированных признаков, чтобы убрать мультиколлинеарность
2.2. Смотрим корреляцию друг с другом
2.3. Вместо OHE для дней недели предполагаем sin/cos с fourier_order = 2, либо делаем нолики или единички для выходной/не выходной
2.4. Пробуем WOE-преобразование для категориальных переменных
2.5. Делаем проверку на VIF-score для того, чтобы избежать мультиколлинеарности в наших признаках, которые попадают в модель
3-4 дропнул
5. (опционально) Предполагаем дополнительную генерацию степеней признаков не дискретно = 1.1, 1.2, 1.3
6. При работе с фолдами в кросс-валидации рассматриваем пристально бакеты, где сильно разлетелись по метрикам на тесте (сравниваем распределения и средние у каждого признака и таргета, тут можно применить PSI)
7. Для проверки на важность рассматриваем следующее:
7.1. Накатываем Катбуст / lightgbm:
7.1.1. Смотрим важность по GAIN
7.1.2. Смотрим важность по SHAP-values
7.1.3. Смотрим важность по permutation importance
7.1.4. Отбираем фичи, которые попали в условный топ-N каждого из способов и предполагаем, что они самые крутые - далее смотрим, насколько сильно их скор разлетается
7.2. Делаем Recursive Feature Elimination
7.3. На сформированном финальном списке признаков пробуем найти дата-лики на будущее и смотрим просто по логике и выкидываем те, которые совсем не подходят.
7.4. (опционально) Если фичей меньше N, делаем полный перебор по всем вариантам применения этих признаков

Дополнительно про отбор признаков тут
Про генерацию признаков для временных рядов тут

Уверен, это вам точно пригодится при работе над вашими модельками. В комментариях кидайте ваши предположения по тому, что я мог упустить.

@asisakov_channel

#ml

asisakov

Корреляция

Во время выступления на датафесте я продемонстрировал слайд с определенной воронкой отбора признаков. Один из вариантов отбора был связан с корреляцией. Очевидно, что она помогает понять взаимосвязи между различными переменными (или таргетом)…

👍1

73 viewsAnatoly Alekseev, 05:58