Tabular Playground Series - Nov 2021 [Part 1]
EDA, нелинейные данные, большая размерность и baseline модель. В ноутбуке я постарался приложить полезные ссылки. Если вам понравилось или помогло мое решение, то поставьте лайк на kaggle.Читать подробнее
Гайд по анализу данных
Если вы не знаете как анализировать, какие графики использовать или просто хотите изучить какие то новые продвинутые методы, то этот пост то что вам нужно. Если вы не найдете ответы в посте, то точно у вас не останется вопросов при изучении приложенных ссылок на материалы.Читать тут
Стандарты в Data Science
CRISP-DM
CRISP-DM
Это, наверное, самая известная методология, которая имеет расшифровку [Cross-Industry Standard Process for Data Mining]KDD
Идея состоит в том, что бы разделить разработку на определенные разделы подзадач. Как говорят аналитики из 'Яндекс' - Разделяй и властвуй.
Состоит методология из 6 частей
* Понимание проблемы ( Business Understanding )
* Понимание данных ( Data Understanding )
* Подготовка данных ( Data Preparation )
* Моделирование ( Modeling )
* Оценка ( Solution Evaluation )
* Развертывание ( Deployment )
Это безусловно не самая лучшая методология, но стоит внедрить ее в ваш pet-project, competition или любой другой проект, если вы еще не внедрили ее.
Knowledge Discovery in Databases - это вторая методология о которой я хотел бы рассказать, она не задает набор методов обработки или пригодные для анализа алгоритмы, он определяет последовательность действий, которую необходимо выполнить для того, чтобы из исходных данных получить знания. Данный подход универсальный и не зависит от предметной области, что является его несомненным достоинством.SEMMA
* Сбор данных ( Data Mining )
* Подготовка данных ( Data Preparation )
* Трансформация данных ( Data Transformation )
* Моделирование ( Modeling )
* Постобработка данных ( Post Data Preparation & Interpretation )
В отличие от другого широко используемого стандарта Data Mining, CRISP-DM, SEMMA фокусируется на задачах моделирования, не затрагивая бизнес-аспекты. Тем не менее, этот стандарт позиционируется как унифицированный межотраслевой подход к итеративному процессу интеллектуального анализа данных.
* Сбор данных ( Data Mining )
* Исследование ( Explore data analysis )
* Модификация ( Data Modification )
* Моделирование ( Modeling )
* Оценка ( Solution Evaluation )spam-h.jpg
74.5 KB
TPS Jan 22
Пришлось изучить временные ряды, если наберете 8 лайкосиков, то скину пару книжек, которые сам сейчас читаю. Вообще это довольно сложная тема, потому что не очевидно, когда линейные модели будут работать хорошо. Я не знаю почему, но с этими данными они очень плохо работали. Возможно использовать обычные регрессии было бы эффективнее.💻Ноутбук
Так же как обычно мой любимый catboost и бонусом prophet, на самом деле часто используют ее в проде, решил тоже включить. Позже мб сделаю стакинг бустингов, хочется в топ 5% все таки попасть :)
TPS Jan 22 v2
Вторая часть ноута, блендинг ансамблей и мета модель на сидах, так же попробовал интересный метод валидации : выкидывать часть временного ряда и обучать модуль. Так можно делать, если у вас иерархическая модель. Так же попробовал аля псевдолейбелинг для валидации тестовой выборки, на него ориентироваться, конечно не стоит. Но хотя бы понятно будет.ноутбучек
Ubiquant Market Prediction EDA
Очередное соревнование, небольшой анализ и то как правильно нужно оформлять ноутбуки, обязательно посмотрите. Кстати сейчас в процессе написания большого поста про эконометрику, очень надеюсь, что всем зайдет. Единственный нюанс, он будет на инглише, но думаю разберетесь я стараюсь придерживаться понятных и простых объяснений.ноутбук🎓