Всем привет!
Решил запустить свой канал. Буду рассказывать здесь про свой опыт в Data Science и лайфхаки
Решил запустить свой канал. Буду рассказывать здесь про свой опыт в Data Science и лайфхаки
Когда начинаешь погружаться в DS - начинаешь работать с новым методом/алгоритмом, полезно иметь под рукой простые примеры кода с его использованием.
Ловите! Это блок индуса, который собрал простейшие примеры различных методов в одну кучу с кодом: https://thecleverprogrammer.com/2020/11/27/machine-learning-algorithms-with-python/
Про PyCaret и Auto-Sklearn сам впервые услышал 🤔
Ловите! Это блок индуса, который собрал простейшие примеры различных методов в одну кучу с кодом: https://thecleverprogrammer.com/2020/11/27/machine-learning-algorithms-with-python/
Про PyCaret и Auto-Sklearn сам впервые услышал 🤔
AmanXai by Aman Kharwal
Machine Learning Algorithms with Python | Aman Kharwal
In this article, I will take you through an explanation and implementation of all Machine Learning algorithms with Python programming language.
👍4
#лайфхаки
Поймал себя на периодическом подглядывании в эту статью.
Очень крутые штуки, которые упрощают работу с табличными датасетами в Jupyter Notebook #EDА.
№ 3 Jupyter DataTables и № 6 livelossplot - одни из моих любимых. Обязательно попробуйте!
https://habr.com/ru/company/skillfactory/blog/542870/?utm_source=facebook.com_flows&utm_medium=social&utm_campaign=%5Bperevod%5D-10-poleznyh-rasshireniy-dlya-dat
Поймал себя на периодическом подглядывании в эту статью.
Очень крутые штуки, которые упрощают работу с табличными датасетами в Jupyter Notebook #EDА.
№ 3 Jupyter DataTables и № 6 livelossplot - одни из моих любимых. Обязательно попробуйте!
https://habr.com/ru/company/skillfactory/blog/542870/?utm_source=facebook.com_flows&utm_medium=social&utm_campaign=%5Bperevod%5D-10-poleznyh-rasshireniy-dlya-dat
Хабр
10 полезных расширений для дата-сайентистов
Каждый специалист по Data Science тратит большую часть своего времени на визуализацию данных, их предварительную обработку и настройку модели на основе полученных результатов. Для каждого...
👍3
Speed up'ал, speed up'аю и буду speed up'ать свои сеточки на pytorch чтобы быстрее громить соперников на Kaggle.
Мир переворачивается, когда находишь для себя неочевидные, но простые пути решения проблем. Недавно задумался, насколько сильно можно ускорить тренировку сеточки и наткнулся на чек-лист путей ускорения.
https://www.reddit.com/r/MachineLearning/comments/kvs1ex/d_here_are_17_ways_of_making_pytorch_training/
"Automatic Mixed Precision" и "gradient clipping" были для меня в новинку. 😱 Дополнительно рекомендую еще познать технику "16-bit precision" ну и проверить возможность увеличения магического параметра - числа workes в Dataloader. 😎
Как итог, ускорил сетку в 6-7 раз, убрав лишние переносы с gpu на cpu🤠
Мир переворачивается, когда находишь для себя неочевидные, но простые пути решения проблем. Недавно задумался, насколько сильно можно ускорить тренировку сеточки и наткнулся на чек-лист путей ускорения.
https://www.reddit.com/r/MachineLearning/comments/kvs1ex/d_here_are_17_ways_of_making_pytorch_training/
"Automatic Mixed Precision" и "gradient clipping" были для меня в новинку. 😱 Дополнительно рекомендую еще познать технику "16-bit precision" ну и проверить возможность увеличения магического параметра - числа workes в Dataloader. 😎
Как итог, ускорил сетку в 6-7 раз, убрав лишние переносы с gpu на cpu🤠
Reddit
From the MachineLearning community on Reddit: [D] Here are 17 ways of making PyTorch training faster – what did I miss?
Explore this post and more from the MachineLearning community
👍2
За этот месяц раз 5 услышал слово "экстраполяция" в контексте методов машинного обучения, в итоге решил наконец-то почитать, что же это все несет в себе.🧞♂️ Да, конечно, я слышал и активно использовал feature importance, и даже SHAP, а какое-то время назад еще и LIME😎. Однако вот почитать и разобраться поглубже в этих все штуках и не только захотелось только сейчас.🧐 Собственно, рекомендую и Вам почитать вот эту статейку на стыке философии и ML👉 https://www.machinelearningmastery.ru/explainable-artificial-intelligence-part-2-model-interpretation-strategies-75d4afa6b739/
machinelearningmastery.ru
Модельные стратегии интерпретации
👍3
Думаю, стоит ли написать историю - Как я НЕ выиграл хакатон на Kaggle.😅 Не хватило 0.001 до 🥉 Смотри скрин)
Пишите в комментарии, если интересно как я потратил почти месяц пока фармил "CommonLit Readability Prize" и что в итоге приблизило меня к топ-10% 🏆😎
Если интересна сама задача, то надо было по текстам определять их сложность/читабельность.📖📝
Пишите в комментарии, если интересно как я потратил почти месяц пока фармил "CommonLit Readability Prize" и что в итоге приблизило меня к топ-10% 🏆😎
Если интересна сама задача, то надо было по текстам определять их сложность/читабельность.📖📝
👍3
Саш, как подготовиться к собеседованию по Data Science? ⚔️ Где взять вопросы? Что читать? Можешь меня поспрашивать? 🤼♀️
Обычно всем кентам кидаю вот этот набор вопросов github.com/a-milenkin/testovoe 🗂 тут под 500 вопросов, не меньше. Прям не соскучишься. Сам перед собеседованиями гонял себя по нему 🏋️♀️ Это то что вам надо) 🎯
И хватит уже теряться при вопросе - что такое линейная регрессия📈
#собеседование #вопросы #до_мидла_за_ночь
Обычно всем кентам кидаю вот этот набор вопросов github.com/a-milenkin/testovoe 🗂 тут под 500 вопросов, не меньше. Прям не соскучишься. Сам перед собеседованиями гонял себя по нему 🏋️♀️ Это то что вам надо) 🎯
И хватит уже теряться при вопросе - что такое линейная регрессия📈
#собеседование #вопросы #до_мидла_за_ночь
GitHub
GitHub - a-milenkin/testovoe: Home assignments for data science positions
Home assignments for data science positions. Contribute to a-milenkin/testovoe development by creating an account on GitHub.
#Трюк №16 - фильтрация 🪣
Вы же тоже часто смотрите на важность признаков в вашей модели? Иначе как понять, на что обращает внимание ваша модель?!
И вот вы смотрите на гистограмму важности признаков, и что дальше?) Что с этим делать?) Ничего?
Вот вам трюк🏂 - заранее генерируем случайный признак и далее смело выбрасываем все признаки, которые рандомный признак отсек. Взлет скора модели гарантирован✈️
Почему это работает? Если случайный признак оказался важнее имеющихся, то скорее всего в них нет никакой полезной информации - разумнее их убрать из модели.
Вы же тоже часто смотрите на важность признаков в вашей модели? Иначе как понять, на что обращает внимание ваша модель?!
И вот вы смотрите на гистограмму важности признаков, и что дальше?) Что с этим делать?) Ничего?
Вот вам трюк🏂 - заранее генерируем случайный признак и далее смело выбрасываем все признаки, которые рандомный признак отсек. Взлет скора модели гарантирован✈️
Почему это работает? Если случайный признак оказался важнее имеющихся, то скорее всего в них нет никакой полезной информации - разумнее их убрать из модели.
👍11
#Трюк № 21 - Псевдолэйблы🤥
Если вам хочется докинуть в модель данных, чтоб поднять скор, то возьмите эти данные из теста.🤪
Звучит безумно, скажите вы, ведь там нет ответов - и будите правы! Однако Kaggle-волков это не останавливает.
Все просто. Обучаем модель на тренировочной выборке (train).
Размечаем тестовую выборку, которая предложена вам для отправки на лидер борд. (Теперь в тесте есть ответы).
Переобучаем модель на тренировочной + свеже-размеченном тестовой выборках.
Снова делаем предсказание на тестовой выборке и засылаем наш сабмит. 🎯
На моей практике, при хорошей модели и соотношении train:test примерно 3:1 это часто дает прирост точности.📈
Почему работает? У вашей модели больше данных, что дает ей чуть лучше выучиться. Да, в разметке будут ошибки, но будет и большинство правильных ответов. Последнее все компенсирует.⚔️
Если вам хочется докинуть в модель данных, чтоб поднять скор, то возьмите эти данные из теста.🤪
Звучит безумно, скажите вы, ведь там нет ответов - и будите правы! Однако Kaggle-волков это не останавливает.
Все просто. Обучаем модель на тренировочной выборке (train).
Размечаем тестовую выборку, которая предложена вам для отправки на лидер борд. (Теперь в тесте есть ответы).
Переобучаем модель на тренировочной + свеже-размеченном тестовой выборках.
Снова делаем предсказание на тестовой выборке и засылаем наш сабмит. 🎯
На моей практике, при хорошей модели и соотношении train:test примерно 3:1 это часто дает прирост точности.📈
Почему работает? У вашей модели больше данных, что дает ей чуть лучше выучиться. Да, в разметке будут ошибки, но будет и большинство правильных ответов. Последнее все компенсирует.⚔️
❤1
Друзья,
Уже сегодня в 16:00 по Мск
👉 онлайн-встреча с грандмастером Kaggle.🏆🔥🚀
Спикер:
👉 Захар Чикишев,
- Выпускник МФТИ-04
- Большой опыт работы в Data Science
На встрече вы сможете задать любой вопрос Захару, а так же узнать о:
– опыте участия в Kaggle соревнованиях
– с чего начать новичку сейчас🤓
Лекция будет интересна тем, кто:
– интересуется Data Science
– планирует принять участие в одном из соревнований
👉Ссылка на zoom будет выложена чуть позже тут
Уже сегодня в 16:00 по Мск
👉 онлайн-встреча с грандмастером Kaggle.🏆🔥🚀
Спикер:
👉 Захар Чикишев,
- Выпускник МФТИ-04
- Большой опыт работы в Data Science
На встрече вы сможете задать любой вопрос Захару, а так же узнать о:
– опыте участия в Kaggle соревнованиях
– с чего начать новичку сейчас🤓
Лекция будет интересна тем, кто:
– интересуется Data Science
– планирует принять участие в одном из соревнований
👉Ссылка на zoom будет выложена чуть позже тут
