#лайфхаки
Поймал себя на периодическом подглядывании в эту статью.
Очень крутые штуки, которые упрощают работу с табличными датасетами в Jupyter Notebook #EDА.
№ 3 Jupyter DataTables и № 6 livelossplot - одни из моих любимых. Обязательно попробуйте!
https://habr.com/ru/company/skillfactory/blog/542870/?utm_source=facebook.com_flows&utm_medium=social&utm_campaign=%5Bperevod%5D-10-poleznyh-rasshireniy-dlya-dat
Поймал себя на периодическом подглядывании в эту статью.
Очень крутые штуки, которые упрощают работу с табличными датасетами в Jupyter Notebook #EDА.
№ 3 Jupyter DataTables и № 6 livelossplot - одни из моих любимых. Обязательно попробуйте!
https://habr.com/ru/company/skillfactory/blog/542870/?utm_source=facebook.com_flows&utm_medium=social&utm_campaign=%5Bperevod%5D-10-poleznyh-rasshireniy-dlya-dat
Хабр
10 полезных расширений для дата-сайентистов
Каждый специалист по Data Science тратит большую часть своего времени на визуализацию данных, их предварительную обработку и настройку модели на основе полученных результатов. Для каждого...
👍3
Speed up'ал, speed up'аю и буду speed up'ать свои сеточки на pytorch чтобы быстрее громить соперников на Kaggle.
Мир переворачивается, когда находишь для себя неочевидные, но простые пути решения проблем. Недавно задумался, насколько сильно можно ускорить тренировку сеточки и наткнулся на чек-лист путей ускорения.
https://www.reddit.com/r/MachineLearning/comments/kvs1ex/d_here_are_17_ways_of_making_pytorch_training/
"Automatic Mixed Precision" и "gradient clipping" были для меня в новинку. 😱 Дополнительно рекомендую еще познать технику "16-bit precision" ну и проверить возможность увеличения магического параметра - числа workes в Dataloader. 😎
Как итог, ускорил сетку в 6-7 раз, убрав лишние переносы с gpu на cpu🤠
Мир переворачивается, когда находишь для себя неочевидные, но простые пути решения проблем. Недавно задумался, насколько сильно можно ускорить тренировку сеточки и наткнулся на чек-лист путей ускорения.
https://www.reddit.com/r/MachineLearning/comments/kvs1ex/d_here_are_17_ways_of_making_pytorch_training/
"Automatic Mixed Precision" и "gradient clipping" были для меня в новинку. 😱 Дополнительно рекомендую еще познать технику "16-bit precision" ну и проверить возможность увеличения магического параметра - числа workes в Dataloader. 😎
Как итог, ускорил сетку в 6-7 раз, убрав лишние переносы с gpu на cpu🤠
Reddit
From the MachineLearning community on Reddit: [D] Here are 17 ways of making PyTorch training faster – what did I miss?
Explore this post and more from the MachineLearning community
👍2
За этот месяц раз 5 услышал слово "экстраполяция" в контексте методов машинного обучения, в итоге решил наконец-то почитать, что же это все несет в себе.🧞♂️ Да, конечно, я слышал и активно использовал feature importance, и даже SHAP, а какое-то время назад еще и LIME😎. Однако вот почитать и разобраться поглубже в этих все штуках и не только захотелось только сейчас.🧐 Собственно, рекомендую и Вам почитать вот эту статейку на стыке философии и ML👉 https://www.machinelearningmastery.ru/explainable-artificial-intelligence-part-2-model-interpretation-strategies-75d4afa6b739/
machinelearningmastery.ru
Модельные стратегии интерпретации
👍3
Думаю, стоит ли написать историю - Как я НЕ выиграл хакатон на Kaggle.😅 Не хватило 0.001 до 🥉 Смотри скрин)
Пишите в комментарии, если интересно как я потратил почти месяц пока фармил "CommonLit Readability Prize" и что в итоге приблизило меня к топ-10% 🏆😎
Если интересна сама задача, то надо было по текстам определять их сложность/читабельность.📖📝
Пишите в комментарии, если интересно как я потратил почти месяц пока фармил "CommonLit Readability Prize" и что в итоге приблизило меня к топ-10% 🏆😎
Если интересна сама задача, то надо было по текстам определять их сложность/читабельность.📖📝
👍3
Саш, как подготовиться к собеседованию по Data Science? ⚔️ Где взять вопросы? Что читать? Можешь меня поспрашивать? 🤼♀️
Обычно всем кентам кидаю вот этот набор вопросов github.com/a-milenkin/testovoe 🗂 тут под 500 вопросов, не меньше. Прям не соскучишься. Сам перед собеседованиями гонял себя по нему 🏋️♀️ Это то что вам надо) 🎯
И хватит уже теряться при вопросе - что такое линейная регрессия📈
#собеседование #вопросы #до_мидла_за_ночь
Обычно всем кентам кидаю вот этот набор вопросов github.com/a-milenkin/testovoe 🗂 тут под 500 вопросов, не меньше. Прям не соскучишься. Сам перед собеседованиями гонял себя по нему 🏋️♀️ Это то что вам надо) 🎯
И хватит уже теряться при вопросе - что такое линейная регрессия📈
#собеседование #вопросы #до_мидла_за_ночь
GitHub
GitHub - a-milenkin/testovoe: Home assignments for data science positions
Home assignments for data science positions. Contribute to a-milenkin/testovoe development by creating an account on GitHub.
#Трюк №16 - фильтрация 🪣
Вы же тоже часто смотрите на важность признаков в вашей модели? Иначе как понять, на что обращает внимание ваша модель?!
И вот вы смотрите на гистограмму важности признаков, и что дальше?) Что с этим делать?) Ничего?
Вот вам трюк🏂 - заранее генерируем случайный признак и далее смело выбрасываем все признаки, которые рандомный признак отсек. Взлет скора модели гарантирован✈️
Почему это работает? Если случайный признак оказался важнее имеющихся, то скорее всего в них нет никакой полезной информации - разумнее их убрать из модели.
Вы же тоже часто смотрите на важность признаков в вашей модели? Иначе как понять, на что обращает внимание ваша модель?!
И вот вы смотрите на гистограмму важности признаков, и что дальше?) Что с этим делать?) Ничего?
Вот вам трюк🏂 - заранее генерируем случайный признак и далее смело выбрасываем все признаки, которые рандомный признак отсек. Взлет скора модели гарантирован✈️
Почему это работает? Если случайный признак оказался важнее имеющихся, то скорее всего в них нет никакой полезной информации - разумнее их убрать из модели.
👍11
#Трюк № 21 - Псевдолэйблы🤥
Если вам хочется докинуть в модель данных, чтоб поднять скор, то возьмите эти данные из теста.🤪
Звучит безумно, скажите вы, ведь там нет ответов - и будите правы! Однако Kaggle-волков это не останавливает.
Все просто. Обучаем модель на тренировочной выборке (train).
Размечаем тестовую выборку, которая предложена вам для отправки на лидер борд. (Теперь в тесте есть ответы).
Переобучаем модель на тренировочной + свеже-размеченном тестовой выборках.
Снова делаем предсказание на тестовой выборке и засылаем наш сабмит. 🎯
На моей практике, при хорошей модели и соотношении train:test примерно 3:1 это часто дает прирост точности.📈
Почему работает? У вашей модели больше данных, что дает ей чуть лучше выучиться. Да, в разметке будут ошибки, но будет и большинство правильных ответов. Последнее все компенсирует.⚔️
Если вам хочется докинуть в модель данных, чтоб поднять скор, то возьмите эти данные из теста.🤪
Звучит безумно, скажите вы, ведь там нет ответов - и будите правы! Однако Kaggle-волков это не останавливает.
Все просто. Обучаем модель на тренировочной выборке (train).
Размечаем тестовую выборку, которая предложена вам для отправки на лидер борд. (Теперь в тесте есть ответы).
Переобучаем модель на тренировочной + свеже-размеченном тестовой выборках.
Снова делаем предсказание на тестовой выборке и засылаем наш сабмит. 🎯
На моей практике, при хорошей модели и соотношении train:test примерно 3:1 это часто дает прирост точности.📈
Почему работает? У вашей модели больше данных, что дает ей чуть лучше выучиться. Да, в разметке будут ошибки, но будет и большинство правильных ответов. Последнее все компенсирует.⚔️
❤1
Друзья,
Уже сегодня в 16:00 по Мск
👉 онлайн-встреча с грандмастером Kaggle.🏆🔥🚀
Спикер:
👉 Захар Чикишев,
- Выпускник МФТИ-04
- Большой опыт работы в Data Science
На встрече вы сможете задать любой вопрос Захару, а так же узнать о:
– опыте участия в Kaggle соревнованиях
– с чего начать новичку сейчас🤓
Лекция будет интересна тем, кто:
– интересуется Data Science
– планирует принять участие в одном из соревнований
👉Ссылка на zoom будет выложена чуть позже тут
Уже сегодня в 16:00 по Мск
👉 онлайн-встреча с грандмастером Kaggle.🏆🔥🚀
Спикер:
👉 Захар Чикишев,
- Выпускник МФТИ-04
- Большой опыт работы в Data Science
На встрече вы сможете задать любой вопрос Захару, а так же узнать о:
– опыте участия в Kaggle соревнованиях
– с чего начать новичку сейчас🤓
Лекция будет интересна тем, кто:
– интересуется Data Science
– планирует принять участие в одном из соревнований
👉Ссылка на zoom будет выложена чуть позже тут
👉 Ссылка на онлайн-встречу "Путь грандмастера Kaggle"
Залетайте:) Следующая такая возможность будет не скоро
Залетайте:) Следующая такая возможность будет не скоро
Увлекся испытательными соревнованиями от MADE 🧐 по рекомендательным системам. Как итог, поступил к ним на программу😳🏆
Если кто еще не слышал, то это продвинутая школа анализа больших данных от Mail.Ru. Как ШАД только более прикладная направленность.
Что меня подкупило - организаторы отбирают по результатам соревнования типо как на Kaggle. 💪
#что_ж_иду_в_MADE
#ШАД_пусть_отдохнет
#OzonMasters_тоже_пушка
Если кто еще не слышал, то это продвинутая школа анализа больших данных от Mail.Ru. Как ШАД только более прикладная направленность.
Что меня подкупило - организаторы отбирают по результатам соревнования типо как на Kaggle. 💪
#что_ж_иду_в_MADE
#ШАД_пусть_отдохнет
#OzonMasters_тоже_пушка
Трюк №11 - нормировка таргета🏔
Давно держал в голове этот трюк, но только недавно он сработал у меня на практике. 😎
Если целевая переменная имеет нестандартное распределение, то простое логарифмирование этой переменной может выровнять распределение в сторону нормального - это немного упростит задачу вашей модели.📈
По итогу точность подрастает, что очень приятно🔝. После предсказания производим обратное преобразование - потенцируем (возводим экспоненту в степень вашей переменной).🤓
Почему работает? Линейным моделям становится проще улавливать нелинейные зависимости 🏋️♀️
Давно держал в голове этот трюк, но только недавно он сработал у меня на практике. 😎
Если целевая переменная имеет нестандартное распределение, то простое логарифмирование этой переменной может выровнять распределение в сторону нормального - это немного упростит задачу вашей модели.📈
По итогу точность подрастает, что очень приятно🔝. После предсказания производим обратное преобразование - потенцируем (возводим экспоненту в степень вашей переменной).🤓
Почему работает? Линейным моделям становится проще улавливать нелинейные зависимости 🏋️♀️
Поучаствовал в съемке бесплатного курса по DS от Мегафон.
Некоторых экспертов раньше смотрел, а теперь вместе с ними вовлекаю новых чемпиончиков в индустрию 🏆
Не реклама, просто рад запуску и промо-ролики курса интересные🚀 Приложу фрагмент:)
Некоторых экспертов раньше смотрел, а теперь вместе с ними вовлекаю новых чемпиончиков в индустрию 🏆
Не реклама, просто рад запуску и промо-ролики курса интересные🚀 Приложу фрагмент:)
Только началась в Москве суета с ограничениями - сразу взял билет и улетел DS’ить удаленно в Сочи ✈️
- Температура +20🌡
- Билет 1.5к
- Локдаун не меньше недели.
- Профилактика выгорания
Чем не повод сделать также?) 😅🤔
В личке готов рассказать, где снять комфортную студию в Сочи за 18к/месяц в 350 метрах от моря 🌅 Не реклама, но знайте, что так можно 🤫
Ниже тизер видео - с таким видом работоспособность подлетает до небес.
- Температура +20🌡
- Билет 1.5к
- Локдаун не меньше недели.
- Профилактика выгорания
Чем не повод сделать также?) 😅🤔
В личке готов рассказать, где снять комфортную студию в Сочи за 18к/месяц в 350 метрах от моря 🌅 Не реклама, но знайте, что так можно 🤫
Ниже тизер видео - с таким видом работоспособность подлетает до небес.
трюк №13 - блендинг 🎳
Вот вам мотивация биться командой☘️. Считаешь, что твой score так себе...? А что покажет блендинг с моделями товарищей? На фото мой реальный кейс с хака🧙♂️ Это прям магия 🪄📈😅
Почему работает? Зануляется шумовая составляющая прогноза.
P.S - Развлёкся этой ночью на Open Data Battle, наконец-то дошли руки доработать код с 3-м бустингом - catboost'ом 🐈. Очень порадовал)💪 🔥
#чисто_ради_фана
🎃🎃🎃🎃🎃🎃🎃
Вот вам мотивация биться командой☘️. Считаешь, что твой score так себе...? А что покажет блендинг с моделями товарищей? На фото мой реальный кейс с хака🧙♂️ Это прям магия 🪄📈😅
Почему работает? Зануляется шумовая составляющая прогноза.
P.S - Развлёкся этой ночью на Open Data Battle, наконец-то дошли руки доработать код с 3-м бустингом - catboost'ом 🐈. Очень порадовал)💪 🔥
#чисто_ради_фана
🎃🎃🎃🎃🎃🎃🎃
Продолжаю прокачивать твои навыки в Data Science🎡
Трюк №17 - сдвиги (Data shift)🎭
На валидации метрика высокая, а на тесте внезапно сильно ниже? - Это повод проверить ваши данные на сдвиги. На скрине привел простой пример, как можно отловить сдвиг🕸
Что можно сделать?
- Удалить шифт-фичу совсем
- Проверить выбросы
- RobustScaling, StandScaling*
- Вычесть разницу средних
- data[“feature”].shift(12)
* В этом теме много тонкостей. Поэтому просто обращу внимание на один из способов искать шифты с помощью статистических критериев - не зря же вам на мат.статистике про них рассказывали?! Найдя шифт, придумать что с ним делать уже проще.
На своей практике, использовал шифты как дополнительный повод почистить данные. Смотри скрин.
P.S - Да, критерии нужны не только для А/B тестирования!🚦🏭
Трюк №17 - сдвиги (Data shift)🎭
На валидации метрика высокая, а на тесте внезапно сильно ниже? - Это повод проверить ваши данные на сдвиги. На скрине привел простой пример, как можно отловить сдвиг🕸
Что можно сделать?
- Удалить шифт-фичу совсем
- Проверить выбросы
- RobustScaling, StandScaling*
- Вычесть разницу средних
- data[“feature”].shift(12)
* В этом теме много тонкостей. Поэтому просто обращу внимание на один из способов искать шифты с помощью статистических критериев - не зря же вам на мат.статистике про них рассказывали?! Найдя шифт, придумать что с ним делать уже проще.
На своей практике, использовал шифты как дополнительный повод почистить данные. Смотри скрин.
P.S - Да, критерии нужны не только для А/B тестирования!🚦🏭
👍5