Стандарты в Data Science
CRISP-DM
CRISP-DM
Это, наверное, самая известная методология, которая имеет расшифровку [Cross-Industry Standard Process for Data Mining]KDD
Идея состоит в том, что бы разделить разработку на определенные разделы подзадач. Как говорят аналитики из 'Яндекс' - Разделяй и властвуй.
Состоит методология из 6 частей
* Понимание проблемы ( Business Understanding )
* Понимание данных ( Data Understanding )
* Подготовка данных ( Data Preparation )
* Моделирование ( Modeling )
* Оценка ( Solution Evaluation )
* Развертывание ( Deployment )
Это безусловно не самая лучшая методология, но стоит внедрить ее в ваш pet-project, competition или любой другой проект, если вы еще не внедрили ее.
Knowledge Discovery in Databases - это вторая методология о которой я хотел бы рассказать, она не задает набор методов обработки или пригодные для анализа алгоритмы, он определяет последовательность действий, которую необходимо выполнить для того, чтобы из исходных данных получить знания. Данный подход универсальный и не зависит от предметной области, что является его несомненным достоинством.SEMMA
* Сбор данных ( Data Mining )
* Подготовка данных ( Data Preparation )
* Трансформация данных ( Data Transformation )
* Моделирование ( Modeling )
* Постобработка данных ( Post Data Preparation & Interpretation )
В отличие от другого широко используемого стандарта Data Mining, CRISP-DM, SEMMA фокусируется на задачах моделирования, не затрагивая бизнес-аспекты. Тем не менее, этот стандарт позиционируется как унифицированный межотраслевой подход к итеративному процессу интеллектуального анализа данных.
* Сбор данных ( Data Mining )
* Исследование ( Explore data analysis )
* Модификация ( Data Modification )
* Моделирование ( Modeling )
* Оценка ( Solution Evaluation )spam-h.jpg
74.5 KB
TPS Jan 22
Пришлось изучить временные ряды, если наберете 8 лайкосиков, то скину пару книжек, которые сам сейчас читаю. Вообще это довольно сложная тема, потому что не очевидно, когда линейные модели будут работать хорошо. Я не знаю почему, но с этими данными они очень плохо работали. Возможно использовать обычные регрессии было бы эффективнее.💻Ноутбук
Так же как обычно мой любимый catboost и бонусом prophet, на самом деле часто используют ее в проде, решил тоже включить. Позже мб сделаю стакинг бустингов, хочется в топ 5% все таки попасть :)
TPS Jan 22 v2
Вторая часть ноута, блендинг ансамблей и мета модель на сидах, так же попробовал интересный метод валидации : выкидывать часть временного ряда и обучать модуль. Так можно делать, если у вас иерархическая модель. Так же попробовал аля псевдолейбелинг для валидации тестовой выборки, на него ориентироваться, конечно не стоит. Но хотя бы понятно будет.ноутбучек
Ubiquant Market Prediction EDA
Очередное соревнование, небольшой анализ и то как правильно нужно оформлять ноутбуки, обязательно посмотрите. Кстати сейчас в процессе написания большого поста про эконометрику, очень надеюсь, что всем зайдет. Единственный нюанс, он будет на инглише, но думаю разберетесь я стараюсь придерживаться понятных и простых объяснений.ноутбук🎓
🎓Econometric is all you need 🎓
📓Notebook📓
Мой новый бестселлер - одна из самых прикладных наук, которая будет полезна для любого аналитика. Имею в руках такой инструмент вы сможете интерпретировать любые экономические ситуации. Вместе с моим коллегой мы собрали основы и решим одну из самых популярных задач Houses Prices. Наглядно покажем как правильно делать регрессионный анализ, сравним чем он отличается от машинного обучения и почему им нужно владеть. Так же рассмотрим различные модели и проверим их робастность.Работа в процессе, ~ раз в неделю будут обновления!
📓Notebook📓
image_2022-01-31_00-46-29.png
76.3 KB
To the moon!
Теперь я еще и эксперт) Ну что до лета получаем мастера?
Теперь я еще и эксперт) Ну что до лета получаем мастера?
image_2022-02-01_15-11-40.png
6.9 KB
Вот так бывает, когда линейные регрессии побеждают DNN, ANN и GB. Это топ 10 решение, но мы переобучились [по итогу топ 16% ]. Ценный урок, все таки любое соревнование выигрывается умом и пониманием что ты делаешь, берем на заметку.
https://www.kaggle.com/c/tabular-playground-series-jan-2022/discussion/304355
https://www.kaggle.com/c/tabular-playground-series-jan-2022/discussion/304355
TPS FEB 2022
Не успел закончиться январский как начинается февральская война нейронок. На этот раз медицинские данные, если вы думаете что врачи самая сложная работа, то я вас уверяю любой DS - разнорабочий, который должен разбираться во всех сферах. К разработке чипирования населения на 5G вышках готов.TPS FEB 22
Это долгое затишье перед бурей.
* Я вернусь, но ближе к середине весны.
* Я собираю очень большой материал, по самоподготовке к jun+/middle ml/cv.
* До конца лета планируется поднять рейтинг до кегль мастера. [ я очень близок к этому ]
* Моё отсутивие и название к посту значит, что я знаю как выиграть хакатоны/ соревнования, но мне нужно время.
* Развиваюсь в CV
* После того как я возьму эксперта соревнований и мастера на кегля [ планируется к концу августа ] или параллельно этому, я буду готовиться к собесам в F/M + AANG, а так же маге. Поэтому буду посвещать вас в подготовку.
* Я могу сказать, что все это взаимосвязанно и придёт к одному логичному концу. Это все можно назвать портфолио или резюме.
- Pet project.
- Kaggle.
- Подготовка к собесам/экзаменам в магу.
Напомню, что я готовлю огромный набор материалов [ причина ждать ] по этому поводу и когда я говорю, что он огромный, то это значит, что он больше чем курс на яндекс практикуме. И если это поможет одному человеку, значит я делал это не зря.
* Я вернусь, но ближе к середине весны.
* Я собираю очень большой материал, по самоподготовке к jun+/middle ml/cv.
* До конца лета планируется поднять рейтинг до кегль мастера. [ я очень близок к этому ]
* Моё отсутивие и название к посту значит, что я знаю как выиграть хакатоны/ соревнования, но мне нужно время.
* Развиваюсь в CV
* После того как я возьму эксперта соревнований и мастера на кегля [ планируется к концу августа ] или параллельно этому, я буду готовиться к собесам в F/M + AANG, а так же маге. Поэтому буду посвещать вас в подготовку.
* Я могу сказать, что все это взаимосвязанно и придёт к одному логичному концу. Это все можно назвать портфолио или резюме.
- Pet project.
- Kaggle.
- Подготовка к собесам/экзаменам в магу.
Напомню, что я готовлю огромный набор материалов [ причина ждать ] по этому поводу и когда я говорю, что он огромный, то это значит, что он больше чем курс на яндекс практикуме. И если это поможет одному человеку, значит я делал это не зря.
🔥3
Космический титаник
За две ночи сделал анализ титаника, небольшая разминочка. Новый сорев от кегля. Возможно на нем буду тестить всякие штучки для MLOPS. Если
вы любитель сводных таблиц и эстет красивых график мастхев ту чек!
кликMLoopphs
В общем вышел трек у ODS по MLOPS. Я видел, что кто-то и подписался даже на меня, приятно, приятно. Рад что то что я делаю вносит импакт. Так вот буду обновлять по мере выхода. Это конспектики. Будет очень приятно если залайкаете, хочу что бы он попал в популярное. Мы уже с вами так делали. Так же тех, кто недавно подписался, приглашаю посмотреть старые записи, думаю будет полезно.
клик
Блог о Data Science 💻
Это долгое затишье перед бурей. * Я вернусь, но ближе к середине весны. * Я собираю очень большой материал, по самоподготовке к jun+/middle ml/cv. * До конца лета планируется поднять рейтинг до кегль мастера. [ я очень близок к этому ] * Моё отсутивие и название…
Я тут подумал. Как это все собрать в одну кучу? И вспомнил про два отличных сервиса. Wiki+hub.
На вики будут треды с конспектами. На хабе ноуты, книжки и сборники задач.
+ я очень постараюсь систематизировать это дело и оформить его более практико ориентированно
На вики будут треды с конспектами. На хабе ноуты, книжки и сборники задач.
+ я очень постараюсь систематизировать это дело и оформить его более практико ориентированно
Так как много ребят пришли сюда с MLOps чата. Что бы поддержать как то интерес к публикации вики ( которая кстати активно пишется и наверное бета версия выйдет после написания первых двух глав) и в целом проявить какую то инициативу в саппорте моего канала для ваших проектов. Хочу с вами поделиться парой книжек.
Не переходите в комментарии и не скачивайте их :(
Не переходите в комментарии и не скачивайте их :(
🔥3