Блог о Data Science 💻 – Telegram
Блог о Data Science 💻
4.12K subscribers
77 photos
4 videos
21 files
117 links
Работаю аналитиком в Яндексе, учусь NLP в Вышке и веду этот канал про применение Data Science в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Чат канала: t.me/notedatasciencechat

Автор: @travelwithtagir
Download Telegram
Нашел вот такую штуку, в целом полезно как для составления резюме, так и roadmap
🔥4
Вот еще такое есть
🔥2
Гайд по анализу данных

Если вы не знаете как анализировать, какие графики использовать или просто хотите изучить какие то новые продвинутые методы, то этот пост то что вам нужно. Если вы не найдете ответы в посте, то точно у вас не останется вопросов при изучении приложенных ссылок на материалы. 

Читать тут
UPDATES WILL BE ASAP
Стандарты в Data Science

CRISP-DM
Это, наверное, самая известная методология, которая имеет расшифровку [Cross-Industry Standard Process for Data Mining] 
Идея состоит в том, что бы разделить разработку на определенные разделы подзадач. Как говорят аналитики из 'Яндекс' - Разделяй и властвуй.
Состоит методология из 6 частей
* Понимание проблемы ( Business Understanding )
* Понимание данных ( Data Understanding )
* Подготовка данных ( Data Preparation )
* Моделирование ( Modeling )
* Оценка ( Solution Evaluation )
* Развертывание ( Deployment )
Это безусловно не самая лучшая методология, но стоит внедрить ее в ваш pet-project, competition или любой другой проект, если вы еще не внедрили ее.

KDD
Knowledge Discovery in Databases - это вторая методология о которой я хотел бы рассказать, она не задает набор методов обработки или пригодные для анализа алгоритмы, он определяет последовательность действий, которую необходимо выполнить для того, чтобы из исходных данных получить знания. Данный подход универсальный и не зависит от предметной области, что является его несомненным достоинством.
* Сбор данных ( Data Mining )
* Подготовка данных ( Data Preparation )
* Трансформация данных ( Data Transformation )
* Моделирование ( Modeling )
* Постобработка данных ( Post Data Preparation & Interpretation )

SEMMA
В отличие от другого широко используемого стандарта Data Mining, CRISP-DM, SEMMA фокусируется на задачах моделирования, не затрагивая бизнес-аспекты. Тем не менее, этот стандарт позиционируется как унифицированный межотраслевой подход к итеративному процессу интеллектуального анализа данных.
* Сбор данных ( Data Mining )
* Исследование ( Explore data analysis )
* Модификация ( Data Modification )
* Моделирование ( Modeling )
* Оценка ( Solution Evaluation )
spam-h.jpg
74.5 KB
TPS Jan 22
Пришлось изучить временные ряды, если наберете 8 лайкосиков, то скину пару книжек, которые сам сейчас читаю. Вообще это довольно сложная тема, потому что не очевидно, когда линейные модели будут работать хорошо. Я не знаю почему, но с этими данными они очень плохо работали. Возможно использовать обычные регрессии было бы эффективнее. 
Так же как обычно мой любимый catboost и бонусом prophet, на самом деле часто используют ее в проде, решил тоже включить. Позже мб сделаю стакинг бустингов, хочется в топ 5% все таки попасть :)

💻Ноутбук
TPS Jan 22 v2
Вторая часть ноута, блендинг ансамблей и мета модель на сидах, так же попробовал интересный метод валидации : выкидывать часть временного ряда и обучать модуль. Так можно делать, если у вас иерархическая модель. Так же попробовал аля псевдолейбелинг для валидации тестовой выборки, на него ориентироваться, конечно не стоит. Но хотя бы понятно будет.
ноутбучек
Ubiquant Market Prediction EDA
Очередное соревнование, небольшой анализ и то как правильно нужно оформлять ноутбуки, обязательно посмотрите. Кстати сейчас в процессе написания большого поста про эконометрику, очень надеюсь, что всем зайдет. Единственный нюанс, он будет на инглише, но думаю разберетесь я стараюсь придерживаться понятных и простых объяснений. 
ноутбук🎓
Если вам как и мне надоело искать CMAPS:

Link
Золотая на месте 😼🔥
🎓Econometric is all you need 🎓
Мой новый бестселлер - одна из самых прикладных наук, которая будет полезна для любого аналитика. Имею в руках такой инструмент вы сможете интерпретировать любые экономические ситуации. Вместе с моим коллегой мы собрали основы и решим одну из самых популярных задач Houses Prices. Наглядно покажем как правильно делать регрессионный анализ, сравним чем он отличается от машинного обучения и почему им нужно владеть. Так же рассмотрим различные модели и проверим их робастность. 

Работа в процессе, ~ раз в неделю будут обновления!

📓Notebook📓
image_2022-01-31_00-46-29.png
76.3 KB
To the moon!
Теперь я еще и эксперт) Ну что до лета получаем мастера?
image_2022-02-01_15-11-40.png
6.9 KB
Вот так бывает, когда линейные регрессии побеждают DNN, ANN и GB. Это топ 10 решение, но мы переобучились [по итогу топ 16% ]. Ценный урок, все таки любое соревнование выигрывается умом и пониманием что ты делаешь, берем на заметку.

https://www.kaggle.com/c/tabular-playground-series-jan-2022/discussion/304355
TPS FEB 2022
Не успел закончиться январский как начинается февральская война нейронок. На этот раз медицинские данные, если вы думаете что врачи самая сложная работа, то я вас уверяю любой DS - разнорабочий, который должен разбираться во всех сферах. К разработке чипирования населения на 5G вышках готов.

TPS FEB 22
Это долгое затишье перед бурей.
* Я вернусь, но ближе к середине весны.
* Я собираю очень большой материал, по самоподготовке к jun+/middle ml/cv.
* До конца лета планируется поднять рейтинг до кегль мастера. [ я очень близок к этому ]
* Моё отсутивие и название к посту значит, что я знаю как выиграть хакатоны/ соревнования, но мне нужно время.
* Развиваюсь в CV
* После того как я возьму эксперта соревнований и мастера на кегля [ планируется к концу августа ] или параллельно этому, я буду готовиться к собесам в F/M + AANG, а так же маге. Поэтому буду посвещать вас в подготовку.
* Я могу сказать, что все это взаимосвязанно и придёт к одному логичному концу. Это все можно назвать портфолио или резюме.
- Pet project.
- Kaggle.
- Подготовка к собесам/экзаменам в магу.

Напомню, что я готовлю огромный набор материалов [ причина ждать ] по этому поводу и когда я говорю, что он огромный, то это значит, что он больше чем курс на яндекс практикуме. И если это поможет одному человеку, значит я делал это не зря.
🔥3
Космический титаник
За две ночи сделал анализ титаника, небольшая разминочка. Новый сорев от кегля. Возможно на нем буду тестить всякие штучки для MLOPS. Если
вы любитель сводных таблиц и эстет красивых график мастхев ту чек!
клик
MLoopphs
В общем вышел трек у ODS по MLOPS. Я видел, что кто-то и подписался даже на меня, приятно, приятно. Рад что то что я делаю вносит импакт. Так вот буду обновлять по мере выхода. Это конспектики. Будет очень приятно если залайкаете, хочу что бы он попал в популярное. Мы уже с вами так делали. Так же тех, кто недавно подписался, приглашаю посмотреть старые записи, думаю будет полезно.
клик
Юбилей, кегль не Берлин, когда нибудь и грандмастера возьмём...
Блог о Data Science 💻
Это долгое затишье перед бурей. * Я вернусь, но ближе к середине весны. * Я собираю очень большой материал, по самоподготовке к jun+/middle ml/cv. * До конца лета планируется поднять рейтинг до кегль мастера. [ я очень близок к этому ] * Моё отсутивие и название…
Я тут подумал. Как это все собрать в одну кучу? И вспомнил про два отличных сервиса. Wiki+hub.
На вики будут треды с конспектами. На хабе ноуты, книжки и сборники задач.

+ я очень постараюсь систематизировать это дело и оформить его более практико ориентированно