За этот месяц раз 5 услышал слово "экстраполяция" в контексте методов машинного обучения, в итоге решил наконец-то почитать, что же это все несет в себе.🧞♂️ Да, конечно, я слышал и активно использовал feature importance, и даже SHAP, а какое-то время назад еще и LIME😎. Однако вот почитать и разобраться поглубже в этих все штуках и не только захотелось только сейчас.🧐 Собственно, рекомендую и Вам почитать вот эту статейку на стыке философии и ML👉 https://www.machinelearningmastery.ru/explainable-artificial-intelligence-part-2-model-interpretation-strategies-75d4afa6b739/
machinelearningmastery.ru
Модельные стратегии интерпретации
👍3
Думаю, стоит ли написать историю - Как я НЕ выиграл хакатон на Kaggle.😅 Не хватило 0.001 до 🥉 Смотри скрин)
Пишите в комментарии, если интересно как я потратил почти месяц пока фармил "CommonLit Readability Prize" и что в итоге приблизило меня к топ-10% 🏆😎
Если интересна сама задача, то надо было по текстам определять их сложность/читабельность.📖📝
Пишите в комментарии, если интересно как я потратил почти месяц пока фармил "CommonLit Readability Prize" и что в итоге приблизило меня к топ-10% 🏆😎
Если интересна сама задача, то надо было по текстам определять их сложность/читабельность.📖📝
👍3
Саш, как подготовиться к собеседованию по Data Science? ⚔️ Где взять вопросы? Что читать? Можешь меня поспрашивать? 🤼♀️
Обычно всем кентам кидаю вот этот набор вопросов github.com/a-milenkin/testovoe 🗂 тут под 500 вопросов, не меньше. Прям не соскучишься. Сам перед собеседованиями гонял себя по нему 🏋️♀️ Это то что вам надо) 🎯
И хватит уже теряться при вопросе - что такое линейная регрессия📈
#собеседование #вопросы #до_мидла_за_ночь
Обычно всем кентам кидаю вот этот набор вопросов github.com/a-milenkin/testovoe 🗂 тут под 500 вопросов, не меньше. Прям не соскучишься. Сам перед собеседованиями гонял себя по нему 🏋️♀️ Это то что вам надо) 🎯
И хватит уже теряться при вопросе - что такое линейная регрессия📈
#собеседование #вопросы #до_мидла_за_ночь
GitHub
GitHub - a-milenkin/testovoe: Home assignments for data science positions
Home assignments for data science positions. Contribute to a-milenkin/testovoe development by creating an account on GitHub.
#Трюк №16 - фильтрация 🪣
Вы же тоже часто смотрите на важность признаков в вашей модели? Иначе как понять, на что обращает внимание ваша модель?!
И вот вы смотрите на гистограмму важности признаков, и что дальше?) Что с этим делать?) Ничего?
Вот вам трюк🏂 - заранее генерируем случайный признак и далее смело выбрасываем все признаки, которые рандомный признак отсек. Взлет скора модели гарантирован✈️
Почему это работает? Если случайный признак оказался важнее имеющихся, то скорее всего в них нет никакой полезной информации - разумнее их убрать из модели.
Вы же тоже часто смотрите на важность признаков в вашей модели? Иначе как понять, на что обращает внимание ваша модель?!
И вот вы смотрите на гистограмму важности признаков, и что дальше?) Что с этим делать?) Ничего?
Вот вам трюк🏂 - заранее генерируем случайный признак и далее смело выбрасываем все признаки, которые рандомный признак отсек. Взлет скора модели гарантирован✈️
Почему это работает? Если случайный признак оказался важнее имеющихся, то скорее всего в них нет никакой полезной информации - разумнее их убрать из модели.
👍11
#Трюк № 21 - Псевдолэйблы🤥
Если вам хочется докинуть в модель данных, чтоб поднять скор, то возьмите эти данные из теста.🤪
Звучит безумно, скажите вы, ведь там нет ответов - и будите правы! Однако Kaggle-волков это не останавливает.
Все просто. Обучаем модель на тренировочной выборке (train).
Размечаем тестовую выборку, которая предложена вам для отправки на лидер борд. (Теперь в тесте есть ответы).
Переобучаем модель на тренировочной + свеже-размеченном тестовой выборках.
Снова делаем предсказание на тестовой выборке и засылаем наш сабмит. 🎯
На моей практике, при хорошей модели и соотношении train:test примерно 3:1 это часто дает прирост точности.📈
Почему работает? У вашей модели больше данных, что дает ей чуть лучше выучиться. Да, в разметке будут ошибки, но будет и большинство правильных ответов. Последнее все компенсирует.⚔️
Если вам хочется докинуть в модель данных, чтоб поднять скор, то возьмите эти данные из теста.🤪
Звучит безумно, скажите вы, ведь там нет ответов - и будите правы! Однако Kaggle-волков это не останавливает.
Все просто. Обучаем модель на тренировочной выборке (train).
Размечаем тестовую выборку, которая предложена вам для отправки на лидер борд. (Теперь в тесте есть ответы).
Переобучаем модель на тренировочной + свеже-размеченном тестовой выборках.
Снова делаем предсказание на тестовой выборке и засылаем наш сабмит. 🎯
На моей практике, при хорошей модели и соотношении train:test примерно 3:1 это часто дает прирост точности.📈
Почему работает? У вашей модели больше данных, что дает ей чуть лучше выучиться. Да, в разметке будут ошибки, но будет и большинство правильных ответов. Последнее все компенсирует.⚔️
❤1
Друзья,
Уже сегодня в 16:00 по Мск
👉 онлайн-встреча с грандмастером Kaggle.🏆🔥🚀
Спикер:
👉 Захар Чикишев,
- Выпускник МФТИ-04
- Большой опыт работы в Data Science
На встрече вы сможете задать любой вопрос Захару, а так же узнать о:
– опыте участия в Kaggle соревнованиях
– с чего начать новичку сейчас🤓
Лекция будет интересна тем, кто:
– интересуется Data Science
– планирует принять участие в одном из соревнований
👉Ссылка на zoom будет выложена чуть позже тут
Уже сегодня в 16:00 по Мск
👉 онлайн-встреча с грандмастером Kaggle.🏆🔥🚀
Спикер:
👉 Захар Чикишев,
- Выпускник МФТИ-04
- Большой опыт работы в Data Science
На встрече вы сможете задать любой вопрос Захару, а так же узнать о:
– опыте участия в Kaggle соревнованиях
– с чего начать новичку сейчас🤓
Лекция будет интересна тем, кто:
– интересуется Data Science
– планирует принять участие в одном из соревнований
👉Ссылка на zoom будет выложена чуть позже тут
👉 Ссылка на онлайн-встречу "Путь грандмастера Kaggle"
Залетайте:) Следующая такая возможность будет не скоро
Залетайте:) Следующая такая возможность будет не скоро
Увлекся испытательными соревнованиями от MADE 🧐 по рекомендательным системам. Как итог, поступил к ним на программу😳🏆
Если кто еще не слышал, то это продвинутая школа анализа больших данных от Mail.Ru. Как ШАД только более прикладная направленность.
Что меня подкупило - организаторы отбирают по результатам соревнования типо как на Kaggle. 💪
#что_ж_иду_в_MADE
#ШАД_пусть_отдохнет
#OzonMasters_тоже_пушка
Если кто еще не слышал, то это продвинутая школа анализа больших данных от Mail.Ru. Как ШАД только более прикладная направленность.
Что меня подкупило - организаторы отбирают по результатам соревнования типо как на Kaggle. 💪
#что_ж_иду_в_MADE
#ШАД_пусть_отдохнет
#OzonMasters_тоже_пушка
Трюк №11 - нормировка таргета🏔
Давно держал в голове этот трюк, но только недавно он сработал у меня на практике. 😎
Если целевая переменная имеет нестандартное распределение, то простое логарифмирование этой переменной может выровнять распределение в сторону нормального - это немного упростит задачу вашей модели.📈
По итогу точность подрастает, что очень приятно🔝. После предсказания производим обратное преобразование - потенцируем (возводим экспоненту в степень вашей переменной).🤓
Почему работает? Линейным моделям становится проще улавливать нелинейные зависимости 🏋️♀️
Давно держал в голове этот трюк, но только недавно он сработал у меня на практике. 😎
Если целевая переменная имеет нестандартное распределение, то простое логарифмирование этой переменной может выровнять распределение в сторону нормального - это немного упростит задачу вашей модели.📈
По итогу точность подрастает, что очень приятно🔝. После предсказания производим обратное преобразование - потенцируем (возводим экспоненту в степень вашей переменной).🤓
Почему работает? Линейным моделям становится проще улавливать нелинейные зависимости 🏋️♀️
Поучаствовал в съемке бесплатного курса по DS от Мегафон.
Некоторых экспертов раньше смотрел, а теперь вместе с ними вовлекаю новых чемпиончиков в индустрию 🏆
Не реклама, просто рад запуску и промо-ролики курса интересные🚀 Приложу фрагмент:)
Некоторых экспертов раньше смотрел, а теперь вместе с ними вовлекаю новых чемпиончиков в индустрию 🏆
Не реклама, просто рад запуску и промо-ролики курса интересные🚀 Приложу фрагмент:)
Только началась в Москве суета с ограничениями - сразу взял билет и улетел DS’ить удаленно в Сочи ✈️
- Температура +20🌡
- Билет 1.5к
- Локдаун не меньше недели.
- Профилактика выгорания
Чем не повод сделать также?) 😅🤔
В личке готов рассказать, где снять комфортную студию в Сочи за 18к/месяц в 350 метрах от моря 🌅 Не реклама, но знайте, что так можно 🤫
Ниже тизер видео - с таким видом работоспособность подлетает до небес.
- Температура +20🌡
- Билет 1.5к
- Локдаун не меньше недели.
- Профилактика выгорания
Чем не повод сделать также?) 😅🤔
В личке готов рассказать, где снять комфортную студию в Сочи за 18к/месяц в 350 метрах от моря 🌅 Не реклама, но знайте, что так можно 🤫
Ниже тизер видео - с таким видом работоспособность подлетает до небес.
трюк №13 - блендинг 🎳
Вот вам мотивация биться командой☘️. Считаешь, что твой score так себе...? А что покажет блендинг с моделями товарищей? На фото мой реальный кейс с хака🧙♂️ Это прям магия 🪄📈😅
Почему работает? Зануляется шумовая составляющая прогноза.
P.S - Развлёкся этой ночью на Open Data Battle, наконец-то дошли руки доработать код с 3-м бустингом - catboost'ом 🐈. Очень порадовал)💪 🔥
#чисто_ради_фана
🎃🎃🎃🎃🎃🎃🎃
Вот вам мотивация биться командой☘️. Считаешь, что твой score так себе...? А что покажет блендинг с моделями товарищей? На фото мой реальный кейс с хака🧙♂️ Это прям магия 🪄📈😅
Почему работает? Зануляется шумовая составляющая прогноза.
P.S - Развлёкся этой ночью на Open Data Battle, наконец-то дошли руки доработать код с 3-м бустингом - catboost'ом 🐈. Очень порадовал)💪 🔥
#чисто_ради_фана
🎃🎃🎃🎃🎃🎃🎃
Продолжаю прокачивать твои навыки в Data Science🎡
Трюк №17 - сдвиги (Data shift)🎭
На валидации метрика высокая, а на тесте внезапно сильно ниже? - Это повод проверить ваши данные на сдвиги. На скрине привел простой пример, как можно отловить сдвиг🕸
Что можно сделать?
- Удалить шифт-фичу совсем
- Проверить выбросы
- RobustScaling, StandScaling*
- Вычесть разницу средних
- data[“feature”].shift(12)
* В этом теме много тонкостей. Поэтому просто обращу внимание на один из способов искать шифты с помощью статистических критериев - не зря же вам на мат.статистике про них рассказывали?! Найдя шифт, придумать что с ним делать уже проще.
На своей практике, использовал шифты как дополнительный повод почистить данные. Смотри скрин.
P.S - Да, критерии нужны не только для А/B тестирования!🚦🏭
Трюк №17 - сдвиги (Data shift)🎭
На валидации метрика высокая, а на тесте внезапно сильно ниже? - Это повод проверить ваши данные на сдвиги. На скрине привел простой пример, как можно отловить сдвиг🕸
Что можно сделать?
- Удалить шифт-фичу совсем
- Проверить выбросы
- RobustScaling, StandScaling*
- Вычесть разницу средних
- data[“feature”].shift(12)
* В этом теме много тонкостей. Поэтому просто обращу внимание на один из способов искать шифты с помощью статистических критериев - не зря же вам на мат.статистике про них рассказывали?! Найдя шифт, придумать что с ним делать уже проще.
На своей практике, использовал шифты как дополнительный повод почистить данные. Смотри скрин.
P.S - Да, критерии нужны не только для А/B тестирования!🚦🏭
👍5
Второй день подвожу итоги и расписываю планы на 2025-й год
Скоро поделюсь, а пока рекомендую вам проинвестировать в самих себя. Как можно раньше усилить себя навыком AI программирования. Начать писать код кратно быстрее!
И вот вам для этого наш экспресс интенсив и промокод HAPPYNEWYEAR (действует до 31 декабря) . Записали со Стасом для вас лучшие связки.
👍 Желаю вам в 2025-м году сэкономить сотни часов на написании однотипного кода самому и больше фокусироваться на творческой части.
Придумывайте, фантазируйте и тестируйте - тогда AI хрен вас заменит!
Скоро поделюсь, а пока рекомендую вам проинвестировать в самих себя. Как можно раньше усилить себя навыком AI программирования. Начать писать код кратно быстрее!
Придумывайте, фантазируйте и тестируйте - тогда AI хрен вас заменит!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1