Data notes – Telegram
Data notes
46 subscribers
59 photos
5 videos
2 files
122 links
My data science notes
Download Telegram
Forwarded from Aspiring Data Science
#ml #ds #rookies

Меня спросили, с чего начинать обучение науке о данных.

Для начала советую

1) прочитать книжку Гвидо/Мюллера, она красиво иллюстрирована и хорошо раскрывает концепции. Также хороша книга Герона, там несколько посложнее и обширнее темы раскрыты. Они обе есть на русском, кажется.
2) лекции А. Дьяконова (МЛ и ПЗАД), если есть желание забуриться в теорию, то и К. Воронцова
3) параллельно этому советую всё же курсы, я знаю 2 хороших источника: ОТУС (там есть 2 начальных, изучите программы) и А. Груздева (у него есть материалы на Бусти и индивидуальное обучение). Только обязательно вовремя прорешивайте задачи и домашние работы, иначе не будет толку.
4) запишитесь в ШАД, это бесплатно и очень круто. но будет требовать много времени, скорее всего.
5) начните участвовать в соревнованиях Кэггл и им подобных российских (организаторами выступают наши бигтехи типа Сбербанк, Роснефть, МТС). Впрочем, на курсах из пункта 3 Вас и так заставят это сделать )
6) подпишитесь на towardsdatascience и подобные ему блоги медиума. контент там варьируется по качеству, но бывает, попадаются жемчужины.
7) есть ещё Хабр
8) начните делать свой пет-проект. если он окажется общественно-полезным и/или коммерчески выгодным, тем круче.
Forwarded from Сиолошная
Смотрите шо у меня есть - двухчасовая лекция по трансформерам, которую я читал (на одном дыхании!) полторы недели назад.

Это детальное погружение во все нюансы, в каких-то аспектах даже глубже, чем спрашивают на собеседованиях!

Однако первая часть, до разбора самого механизма внимания (Self-Attention), будет интересна и нетехнарям - потому что там рассказывается про токенизацию. Это способ предобработки текста, чтобы подать его в трансформер - и в нём куда больше нюансов, чем может показаться на первый взгляд!

Не забывайте ставить лайки - это очень поможет в продвижении видео и знаний в массы - чтобы больше людей посмотрело лекцию!

P.S.: звук постарались улучшить как могли, если у вас есть идеи или нейронки, которые можно применить, чтобы сделать звук качественнее - пишите в личку или в комментарии, будем посмотреть.
Не то чтобы по теме, и не то чтобы что-то новое, но все же:

Джедайские техники. Как воспитать свою обезьяну, опустошить инбокс и сберечь мыслетопливо - Максим Дорофеев читать онлайн
https://limbook.net/read/dzhedayskie-tehniki-kak-vospitat-svoyu-obezyanu-opustoshit-inboks-i-sberech-mysletoplivo.html?section=3#3
Сервис, позволяющий оценить, насколько Ваше cv мэтчится под конкретную вакансию:

https://cvwolf.com/
😁1
Forwarded from Aspiring Data Science
#ml #geofeatures #python

Отличная глава о подготовке геофичей

https://geographicdata.science/book/notebooks/12_feature_engineering.html
Forwarded from Aspiring Data Science
#ml #featureengineering #geofeatures #advicewanted

Есть задачка на генерацию геофичей. Юзер логинится в приложение в разных точках города, Известны его координаты при логине и метки времени. Какие бы интересные фичи построить из графа его перемещений?

Пока что нашел вот такую прекрасную серию статей

https://towardsdatascience.com/graph-machine-learning-with-python-pt-1-basics-metrics-and-algorithms-cc40972de113

https://towardsdatascience.com/graph-machine-learning-with-python-part-3-unsupervised-learning-aa2854fe0ff2

https://towardsdatascience.com/graph-machine-learning-with-python-part-4-supervised-semi-supervised-learning-d66878161b79
Forwarded from See All
я не том смысле что тут написано про немастера, а что тут нет ссылок вот на это. Вероятно, кому-то здесь будет полезно, кто не видел или просто потерял/забыл:
ML System Design Interviews, с Валерой Бабушкиным: (1) выбор рекламы к показу в ленте соцсети, (2) ценообразование на маркетплейсе, (3) матчинг товаров в онлайн-магазине;
Интерактивное превью для pandas DataFrame. Правда, исходники находятся в read only mode с 2020 года и библиотека с тех пор не обновляется

https://github.com/CermakM/jupyter-datatables
Forwarded from Aspiring Data Science (sciuru)
#ml #featureselection #featureimportance

Интересный доклад
Ben Fowler: Traditional & Novel Feature Selection Approaches | PyData LA 2019

Упомянули пару инструментов, которыми я еще не пользовался

1 https://github.com/abhayspawar/featexp - визуализация, вроде dependency plots

2 https://github.com/limexp/xgbfir - нахождение двух- и трех-признаковых интеракций для xgboost-а (должно быть полезно)

Сказал, что weight of evidence - стандартная фича в риск менеджменте, тоже ее не пробовал.

В конце он сравнивает отбор фичей по стандартному бустинговому gain-у, по shap-у, но на единственном датасете, для задачи классификации. Поэтому неизвестно, насколько подход обобщается (хотя он добавил, что и на работе его применял). В целом здраво повествует.
Forwarded from BOGDANISSSIMO
ML LINKS

В недрах своего Notion откопал несколько подборок полезных статей, ссылок, видео по разным направлениям Machine Learning с которыми работал. Собрал их в одну кучу и делюсь с вами.

https://www.notion.so/uberkinder/b15ba7ccc032439bb5d282c8352f2e4e?v=0f9696310752456db047e94ab21c627f&pvs=4

Что имеем на момент 12/05/2023:

• Антифрод (36 ссылок)
• Ценообразование и прогноз спроса (17)
• Рекомендательные системы (42)
• A/B тесты (33, спасибо Валере)
• ML System Design (7)
• Ранжирование и поиск (6)

Список будет активно пополняться.
Буду благодарен репостам в ваши каналы и чаты.

#notion #links #ml #ml_system_design #mlsd #digest
🔥1
The second edition of "The Theory and Practice of Enterprise AI" has been released! You can now download the free PDF version from the book's website, and the hardcopy is available for purchase on Amazon.
Free PDF: https://lnkd.in/gjBv3DM7