Forwarded from Aspiring Data Science
#ml #ds #rookies
Меня спросили, с чего начинать обучение науке о данных.
Для начала советую
1) прочитать книжку Гвидо/Мюллера, она красиво иллюстрирована и хорошо раскрывает концепции. Также хороша книга Герона, там несколько посложнее и обширнее темы раскрыты. Они обе есть на русском, кажется.
2) лекции А. Дьяконова (МЛ и ПЗАД), если есть желание забуриться в теорию, то и К. Воронцова
3) параллельно этому советую всё же курсы, я знаю 2 хороших источника: ОТУС (там есть 2 начальных, изучите программы) и А. Груздева (у него есть материалы на Бусти и индивидуальное обучение). Только обязательно вовремя прорешивайте задачи и домашние работы, иначе не будет толку.
4) запишитесь в ШАД, это бесплатно и очень круто. но будет требовать много времени, скорее всего.
5) начните участвовать в соревнованиях Кэггл и им подобных российских (организаторами выступают наши бигтехи типа Сбербанк, Роснефть, МТС). Впрочем, на курсах из пункта 3 Вас и так заставят это сделать )
6) подпишитесь на towardsdatascience и подобные ему блоги медиума. контент там варьируется по качеству, но бывает, попадаются жемчужины.
7) есть ещё Хабр
8) начните делать свой пет-проект. если он окажется общественно-полезным и/или коммерчески выгодным, тем круче.
Меня спросили, с чего начинать обучение науке о данных.
Для начала советую
1) прочитать книжку Гвидо/Мюллера, она красиво иллюстрирована и хорошо раскрывает концепции. Также хороша книга Герона, там несколько посложнее и обширнее темы раскрыты. Они обе есть на русском, кажется.
2) лекции А. Дьяконова (МЛ и ПЗАД), если есть желание забуриться в теорию, то и К. Воронцова
3) параллельно этому советую всё же курсы, я знаю 2 хороших источника: ОТУС (там есть 2 начальных, изучите программы) и А. Груздева (у него есть материалы на Бусти и индивидуальное обучение). Только обязательно вовремя прорешивайте задачи и домашние работы, иначе не будет толку.
4) запишитесь в ШАД, это бесплатно и очень круто. но будет требовать много времени, скорее всего.
5) начните участвовать в соревнованиях Кэггл и им подобных российских (организаторами выступают наши бигтехи типа Сбербанк, Роснефть, МТС). Впрочем, на курсах из пункта 3 Вас и так заставят это сделать )
6) подпишитесь на towardsdatascience и подобные ему блоги медиума. контент там варьируется по качеству, но бывает, попадаются жемчужины.
7) есть ещё Хабр
8) начните делать свой пет-проект. если он окажется общественно-полезным и/или коммерчески выгодным, тем круче.
OZON.ru
Книга "Машинное обучение с помощью Python. Руководство для специалистов по работе с данными", Гвидо Сара, Мюллер Андреас - купить…
В наличии книга "Машинное обучение с помощью Python. Руководство для специалистов по работе с данными", Гвидо Сара, Мюллер Андреас, Диалектика-Вильямс в интернет-магазине OZON со скидкой! ✅ Реальные отзывы читателей, фото 🚚
Forwarded from Сиолошная
Смотрите шо у меня есть - двухчасовая лекция по трансформерам, которую я читал (на одном дыхании!) полторы недели назад.
Это детальное погружение во все нюансы, в каких-то аспектах даже глубже, чем спрашивают на собеседованиях!
Однако первая часть, до разбора самого механизма внимания (Self-Attention), будет интересна и нетехнарям - потому что там рассказывается про токенизацию. Это способ предобработки текста, чтобы подать его в трансформер - и в нём куда больше нюансов, чем может показаться на первый взгляд!
Не забывайте ставить лайки - это очень поможет в продвижении видео и знаний в массы - чтобы больше людей посмотрело лекцию!
P.S.: звук постарались улучшить как могли, если у вас есть идеи или нейронки, которые можно применить, чтобы сделать звук качественнее - пишите в личку или в комментарии, будем посмотреть.
Это детальное погружение во все нюансы, в каких-то аспектах даже глубже, чем спрашивают на собеседованиях!
Однако первая часть, до разбора самого механизма внимания (Self-Attention), будет интересна и нетехнарям - потому что там рассказывается про токенизацию. Это способ предобработки текста, чтобы подать его в трансформер - и в нём куда больше нюансов, чем может показаться на первый взгляд!
Не забывайте ставить лайки - это очень поможет в продвижении видео и знаний в массы - чтобы больше людей посмотрело лекцию!
P.S.: звук постарались улучшить как могли, если у вас есть идеи или нейронки, которые можно применить, чтобы сделать звук качественнее - пишите в личку или в комментарии, будем посмотреть.
YouTube
Transformer, explained in detail | Igor Kotenkov | NLP Lecture (in Russian)
Ссылка на презентацию: https://1drv.ms/p/s!AlnN0aqNwShslRdcd7-WsY9oUm50
Мой телеграм канал: https://news.1rj.ru/str/seeallochnaya
Список всех моих образовательных материалов, статей, лекций итд: https://news.1rj.ru/str/seeallochnaya/3
В этой вводной лекции о трансформерах мы…
Мой телеграм канал: https://news.1rj.ru/str/seeallochnaya
Список всех моих образовательных материалов, статей, лекций итд: https://news.1rj.ru/str/seeallochnaya/3
В этой вводной лекции о трансформерах мы…
Не то чтобы по теме, и не то чтобы что-то новое, но все же:
Джедайские техники. Как воспитать свою обезьяну, опустошить инбокс и сберечь мыслетопливо - Максим Дорофеев читать онлайн
https://limbook.net/read/dzhedayskie-tehniki-kak-vospitat-svoyu-obezyanu-opustoshit-inboks-i-sberech-mysletoplivo.html?section=3#3
Джедайские техники. Как воспитать свою обезьяну, опустошить инбокс и сберечь мыслетопливо - Максим Дорофеев читать онлайн
https://limbook.net/read/dzhedayskie-tehniki-kak-vospitat-svoyu-obezyanu-opustoshit-inboks-i-sberech-mysletoplivo.html?section=3#3
The portfolio that got me a Data Scientist job | by Matt Chapman | Mar, 2023 | Towards Data Science
https://towardsdatascience.com/the-portfolio-that-got-me-a-data-scientist-job-513cc821bfe4
https://towardsdatascience.com/the-portfolio-that-got-me-a-data-scientist-job-513cc821bfe4
Towards Data Science
The Portfolio that Got Me a Data Scientist Job | Towards Data Science
Spoiler alert: It was surprisingly easy (and free) to make
Ресурс, хорошо зашедший мне для подготовки к интервью по алгоритмам и структурам данных:
10 Most Important Algorithms For Coding Interviews
https://www.geeksforgeeks.org/algorithms-for-interviews/
10 Most Important Algorithms For Coding Interviews
https://www.geeksforgeeks.org/algorithms-for-interviews/
GeeksforGeeks
10 Most Important Algorithms For Coding Interviews - GeeksforGeeks
Your All-in-One Learning Portal: GeeksforGeeks is a comprehensive educational platform that empowers learners across domains-spanning computer science and programming, school education, upskilling, commerce, software tools, competitive exams, and more.
Forwarded from Aspiring Data Science
#ml #geofeatures #python
Отличная глава о подготовке геофичей
https://geographicdata.science/book/notebooks/12_feature_engineering.html
Отличная глава о подготовке геофичей
https://geographicdata.science/book/notebooks/12_feature_engineering.html
Forwarded from Aspiring Data Science
#ml #featureengineering #geofeatures #advicewanted
Есть задачка на генерацию геофичей. Юзер логинится в приложение в разных точках города, Известны его координаты при логине и метки времени. Какие бы интересные фичи построить из графа его перемещений?
Пока что нашел вот такую прекрасную серию статей
https://towardsdatascience.com/graph-machine-learning-with-python-pt-1-basics-metrics-and-algorithms-cc40972de113
https://towardsdatascience.com/graph-machine-learning-with-python-part-3-unsupervised-learning-aa2854fe0ff2
https://towardsdatascience.com/graph-machine-learning-with-python-part-4-supervised-semi-supervised-learning-d66878161b79
Есть задачка на генерацию геофичей. Юзер логинится в приложение в разных точках города, Известны его координаты при логине и метки времени. Какие бы интересные фичи построить из графа его перемещений?
Пока что нашел вот такую прекрасную серию статей
https://towardsdatascience.com/graph-machine-learning-with-python-pt-1-basics-metrics-and-algorithms-cc40972de113
https://towardsdatascience.com/graph-machine-learning-with-python-part-3-unsupervised-learning-aa2854fe0ff2
https://towardsdatascience.com/graph-machine-learning-with-python-part-4-supervised-semi-supervised-learning-d66878161b79
Towards Data Science
Graph Machine Learning with Python Part 1: Basics, Metrics, and Algorithms | Towards Data Science
An introduction to networks via key metrics and algorithms on a Football dataset
Forwarded from See All
я не том смысле что тут написано про немастера, а что тут нет ссылок вот на это. Вероятно, кому-то здесь будет полезно, кто не видел или просто потерял/забыл:
ML System Design Interviews, с Валерой Бабушкиным: (1) выбор рекламы к показу в ленте соцсети, (2) ценообразование на маркетплейсе, (3) матчинг товаров в онлайн-магазине;
ML System Design Interviews, с Валерой Бабушкиным: (1) выбор рекламы к показу в ленте соцсети, (2) ценообразование на маркетплейсе, (3) матчинг товаров в онлайн-магазине;
Весьма актуальная для реалий 2023 преза для подготовки к DS job interview (автор указан на первом слайде)
https://docs.google.com/presentation/d/16Fe8a87WPPcFbI3bFrwb7ndRugMNw3SxWOC2TbeiXO0/edit?usp=sharing
https://docs.google.com/presentation/d/16Fe8a87WPPcFbI3bFrwb7ndRugMNw3SxWOC2TbeiXO0/edit?usp=sharing
Google Docs
Опыт поиска работы в анализе данных в 2023 году
Опыт поиска работы в анализе данных в 2023 году Ануар Аймолдин
Интерактивное превью для pandas DataFrame. Правда, исходники находятся в read only mode с 2020 года и библиотека с тех пор не обновляется
https://github.com/CermakM/jupyter-datatables
https://github.com/CermakM/jupyter-datatables
GitHub
GitHub - CermakM/jupyter-datatables: Jupyter Notebook extension leveraging pandas DataFrames by integrating DataTables and ChartJS.
Jupyter Notebook extension leveraging pandas DataFrames by integrating DataTables and ChartJS. - CermakM/jupyter-datatables
Forwarded from Aspiring Data Science (sciuru)
#ml #featureselection #featureimportance
Интересный доклад
Ben Fowler: Traditional & Novel Feature Selection Approaches | PyData LA 2019
Упомянули пару инструментов, которыми я еще не пользовался
1 https://github.com/abhayspawar/featexp - визуализация, вроде dependency plots
2 https://github.com/limexp/xgbfir - нахождение двух- и трех-признаковых интеракций для xgboost-а (должно быть полезно)
Сказал, что weight of evidence - стандартная фича в риск менеджменте, тоже ее не пробовал.
В конце он сравнивает отбор фичей по стандартному бустинговому gain-у, по shap-у, но на единственном датасете, для задачи классификации. Поэтому неизвестно, насколько подход обобщается (хотя он добавил, что и на работе его применял). В целом здраво повествует.
Интересный доклад
Ben Fowler: Traditional & Novel Feature Selection Approaches | PyData LA 2019
Упомянули пару инструментов, которыми я еще не пользовался
1 https://github.com/abhayspawar/featexp - визуализация, вроде dependency plots
2 https://github.com/limexp/xgbfir - нахождение двух- и трех-признаковых интеракций для xgboost-а (должно быть полезно)
Сказал, что weight of evidence - стандартная фича в риск менеджменте, тоже ее не пробовал.
В конце он сравнивает отбор фичей по стандартному бустинговому gain-у, по shap-у, но на единственном датасете, для задачи классификации. Поэтому неизвестно, насколько подход обобщается (хотя он добавил, что и на работе его применял). В целом здраво повествует.
Forwarded from BOGDANISSSIMO
ML LINKS
В недрах своего Notion откопал несколько подборок полезных статей, ссылок, видео по разным направлениям Machine Learning с которыми работал. Собрал их в одну кучу и делюсь с вами.
https://www.notion.so/uberkinder/b15ba7ccc032439bb5d282c8352f2e4e?v=0f9696310752456db047e94ab21c627f&pvs=4
Что имеем на момент 12/05/2023:
• Антифрод (36 ссылок)
• Ценообразование и прогноз спроса (17)
• Рекомендательные системы (42)
• A/B тесты (33, спасибо Валере)
• ML System Design (7)
• Ранжирование и поиск (6)
Список будет активно пополняться.
Буду благодарен репостам в ваши каналы и чаты.
#notion #links #ml #ml_system_design #mlsd #digest
В недрах своего Notion откопал несколько подборок полезных статей, ссылок, видео по разным направлениям Machine Learning с которыми работал. Собрал их в одну кучу и делюсь с вами.
https://www.notion.so/uberkinder/b15ba7ccc032439bb5d282c8352f2e4e?v=0f9696310752456db047e94ab21c627f&pvs=4
Что имеем на момент 12/05/2023:
• Антифрод (36 ссылок)
• Ценообразование и прогноз спроса (17)
• Рекомендательные системы (42)
• A/B тесты (33, спасибо Валере)
• ML System Design (7)
• Ранжирование и поиск (6)
Список будет активно пополняться.
Буду благодарен репостам в ваши каналы и чаты.
#notion #links #ml #ml_system_design #mlsd #digest
🔥1
The second edition of "The Theory and Practice of Enterprise AI" has been released! You can now download the free PDF version from the book's website, and the hardcopy is available for purchase on Amazon.
Free PDF: https://lnkd.in/gjBv3DM7
Free PDF: https://lnkd.in/gjBv3DM7
lnkd.in
LinkedIn
This link will take you to a page that’s not on LinkedIn
Forwarded from New Yorko Times (Yury Kashnitsky)
ML system design в реальных проектах – 200 блог-постов
#links_with_intro #ml
Команда Evidently (наверняка знаете Эмели Драль, она с кофаундером Elena Samuylova пилит решение для мониторинга и тестирования ML-моделей) собрала около 200 блог-постов про ML system design в реальных проектах – от Netflix, Doordash, Booking и т.д. Кажется неплохим источником знаний для “курса по Data Science, которого нет”, про который я рассказывал раньше. Я не большой фанат ссылок на в целом классные подборки, которые добавляешь в закладки, а потом забываешь про них навсегда. Но в данном случае действительно крутой ресурс, в том числе для подготовки к собеседованиям.
Сюда же можно добавить еще 10 case studies, собранных Chip Huyen в книге “Designing Machine Learning Systems” (вот мой пост в том числе про эту книгу). Там каждый из 10 кейсов еще вкратце пересказан.
Про видео-интервью про ML system design и книгу Валерия Бабушкина & Арсения Кравченко, думаю, тут все и так в курсе.
#links_with_intro #ml
Команда Evidently (наверняка знаете Эмели Драль, она с кофаундером Elena Samuylova пилит решение для мониторинга и тестирования ML-моделей) собрала около 200 блог-постов про ML system design в реальных проектах – от Netflix, Doordash, Booking и т.д. Кажется неплохим источником знаний для “курса по Data Science, которого нет”, про который я рассказывал раньше. Я не большой фанат ссылок на в целом классные подборки, которые добавляешь в закладки, а потом забываешь про них навсегда. Но в данном случае действительно крутой ресурс, в том числе для подготовки к собеседованиям.
Сюда же можно добавить еще 10 case studies, собранных Chip Huyen в книге “Designing Machine Learning Systems” (вот мой пост в том числе про эту книгу). Там каждый из 10 кейсов еще вкратце пересказан.
Про видео-интервью про ML system design и книгу Валерия Бабушкина & Арсения Кравченко, думаю, тут все и так в курсе.
Forwarded from Aspiring Data Science (Anatoly Alekseev)
#trading #ml #chan
Любопытный подход к отбору признаков: сначала схожие фичи группируются в кластера, дальнейший отбор ведётся FS-алгоритмом уже по кластерам. Видимо, это сразу решает проблему колллинеарности.
https://www.youtube.com/watch?v=2-5HYJ0HhyQ
Любопытный подход к отбору признаков: сначала схожие фичи группируются в кластера, дальнейший отбор ведётся FS-алгоритмом уже по кластерам. Видимо, это сразу решает проблему колллинеарности.
https://www.youtube.com/watch?v=2-5HYJ0HhyQ
YouTube
E P Chan: Improving Trading Strategies with Machine Learning, Feature Selection 20210318
The overfitting quandary in Machine Learning.has been resolved using Random Forest Classifiers. For Financial Machine Learning, Lopez de Prado came up with Meta Labeling and Dr Chan and others are applying it in his Tail Reaper Fund, and offering a service.…