👉 Ссылка на онлайн-встречу "Путь грандмастера Kaggle"
Залетайте:) Следующая такая возможность будет не скоро
Залетайте:) Следующая такая возможность будет не скоро
Увлекся испытательными соревнованиями от MADE 🧐 по рекомендательным системам. Как итог, поступил к ним на программу😳🏆
Если кто еще не слышал, то это продвинутая школа анализа больших данных от Mail.Ru. Как ШАД только более прикладная направленность.
Что меня подкупило - организаторы отбирают по результатам соревнования типо как на Kaggle. 💪
#что_ж_иду_в_MADE
#ШАД_пусть_отдохнет
#OzonMasters_тоже_пушка
Если кто еще не слышал, то это продвинутая школа анализа больших данных от Mail.Ru. Как ШАД только более прикладная направленность.
Что меня подкупило - организаторы отбирают по результатам соревнования типо как на Kaggle. 💪
#что_ж_иду_в_MADE
#ШАД_пусть_отдохнет
#OzonMasters_тоже_пушка
Трюк №11 - нормировка таргета🏔
Давно держал в голове этот трюк, но только недавно он сработал у меня на практике. 😎
Если целевая переменная имеет нестандартное распределение, то простое логарифмирование этой переменной может выровнять распределение в сторону нормального - это немного упростит задачу вашей модели.📈
По итогу точность подрастает, что очень приятно🔝. После предсказания производим обратное преобразование - потенцируем (возводим экспоненту в степень вашей переменной).🤓
Почему работает? Линейным моделям становится проще улавливать нелинейные зависимости 🏋️♀️
Давно держал в голове этот трюк, но только недавно он сработал у меня на практике. 😎
Если целевая переменная имеет нестандартное распределение, то простое логарифмирование этой переменной может выровнять распределение в сторону нормального - это немного упростит задачу вашей модели.📈
По итогу точность подрастает, что очень приятно🔝. После предсказания производим обратное преобразование - потенцируем (возводим экспоненту в степень вашей переменной).🤓
Почему работает? Линейным моделям становится проще улавливать нелинейные зависимости 🏋️♀️
Поучаствовал в съемке бесплатного курса по DS от Мегафон.
Некоторых экспертов раньше смотрел, а теперь вместе с ними вовлекаю новых чемпиончиков в индустрию 🏆
Не реклама, просто рад запуску и промо-ролики курса интересные🚀 Приложу фрагмент:)
Некоторых экспертов раньше смотрел, а теперь вместе с ними вовлекаю новых чемпиончиков в индустрию 🏆
Не реклама, просто рад запуску и промо-ролики курса интересные🚀 Приложу фрагмент:)
Только началась в Москве суета с ограничениями - сразу взял билет и улетел DS’ить удаленно в Сочи ✈️
- Температура +20🌡
- Билет 1.5к
- Локдаун не меньше недели.
- Профилактика выгорания
Чем не повод сделать также?) 😅🤔
В личке готов рассказать, где снять комфортную студию в Сочи за 18к/месяц в 350 метрах от моря 🌅 Не реклама, но знайте, что так можно 🤫
Ниже тизер видео - с таким видом работоспособность подлетает до небес.
- Температура +20🌡
- Билет 1.5к
- Локдаун не меньше недели.
- Профилактика выгорания
Чем не повод сделать также?) 😅🤔
В личке готов рассказать, где снять комфортную студию в Сочи за 18к/месяц в 350 метрах от моря 🌅 Не реклама, но знайте, что так можно 🤫
Ниже тизер видео - с таким видом работоспособность подлетает до небес.
трюк №13 - блендинг 🎳
Вот вам мотивация биться командой☘️. Считаешь, что твой score так себе...? А что покажет блендинг с моделями товарищей? На фото мой реальный кейс с хака🧙♂️ Это прям магия 🪄📈😅
Почему работает? Зануляется шумовая составляющая прогноза.
P.S - Развлёкся этой ночью на Open Data Battle, наконец-то дошли руки доработать код с 3-м бустингом - catboost'ом 🐈. Очень порадовал)💪 🔥
#чисто_ради_фана
🎃🎃🎃🎃🎃🎃🎃
Вот вам мотивация биться командой☘️. Считаешь, что твой score так себе...? А что покажет блендинг с моделями товарищей? На фото мой реальный кейс с хака🧙♂️ Это прям магия 🪄📈😅
Почему работает? Зануляется шумовая составляющая прогноза.
P.S - Развлёкся этой ночью на Open Data Battle, наконец-то дошли руки доработать код с 3-м бустингом - catboost'ом 🐈. Очень порадовал)💪 🔥
#чисто_ради_фана
🎃🎃🎃🎃🎃🎃🎃
Продолжаю прокачивать твои навыки в Data Science🎡
Трюк №17 - сдвиги (Data shift)🎭
На валидации метрика высокая, а на тесте внезапно сильно ниже? - Это повод проверить ваши данные на сдвиги. На скрине привел простой пример, как можно отловить сдвиг🕸
Что можно сделать?
- Удалить шифт-фичу совсем
- Проверить выбросы
- RobustScaling, StandScaling*
- Вычесть разницу средних
- data[“feature”].shift(12)
* В этом теме много тонкостей. Поэтому просто обращу внимание на один из способов искать шифты с помощью статистических критериев - не зря же вам на мат.статистике про них рассказывали?! Найдя шифт, придумать что с ним делать уже проще.
На своей практике, использовал шифты как дополнительный повод почистить данные. Смотри скрин.
P.S - Да, критерии нужны не только для А/B тестирования!🚦🏭
Трюк №17 - сдвиги (Data shift)🎭
На валидации метрика высокая, а на тесте внезапно сильно ниже? - Это повод проверить ваши данные на сдвиги. На скрине привел простой пример, как можно отловить сдвиг🕸
Что можно сделать?
- Удалить шифт-фичу совсем
- Проверить выбросы
- RobustScaling, StandScaling*
- Вычесть разницу средних
- data[“feature”].shift(12)
* В этом теме много тонкостей. Поэтому просто обращу внимание на один из способов искать шифты с помощью статистических критериев - не зря же вам на мат.статистике про них рассказывали?! Найдя шифт, придумать что с ним делать уже проще.
На своей практике, использовал шифты как дополнительный повод почистить данные. Смотри скрин.
P.S - Да, критерии нужны не только для А/B тестирования!🚦🏭
👍5
Второй день подвожу итоги и расписываю планы на 2025-й год
Скоро поделюсь, а пока рекомендую вам проинвестировать в самих себя. Как можно раньше усилить себя навыком AI программирования. Начать писать код кратно быстрее!
И вот вам для этого наш экспресс интенсив и промокод HAPPYNEWYEAR (действует до 31 декабря) . Записали со Стасом для вас лучшие связки.
👍 Желаю вам в 2025-м году сэкономить сотни часов на написании однотипного кода самому и больше фокусироваться на творческой части.
Придумывайте, фантазируйте и тестируйте - тогда AI хрен вас заменит!
Скоро поделюсь, а пока рекомендую вам проинвестировать в самих себя. Как можно раньше усилить себя навыком AI программирования. Начать писать код кратно быстрее!
Придумывайте, фантазируйте и тестируйте - тогда AI хрен вас заменит!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Вот рассказываю тут вам про фишки из мира анализа данных, а в жизни сталкиваюсь с вот таким…🤷♀️😅
Представляю вашему вниманию сверх-высоко-пропускную систему электронного документооборота 🗃🧨
Врать не стану. Мои документы, потерянные месяц назад, были найдены менее, чем за 10 секунд, под чьей-то чашкой кофе☕️. Очень шустро ⚡️
Сама команда, разработавшая систему, признается, что секрет успеха в Agile техниках и продвинутом использовании Jira, Slask’а и Trello
#CRMотдыхает
#DataEngineering
Представляю вашему вниманию сверх-высоко-пропускную систему электронного документооборота 🗃🧨
Врать не стану. Мои документы, потерянные месяц назад, были найдены менее, чем за 10 секунд, под чьей-то чашкой кофе☕️. Очень шустро ⚡️
Сама команда, разработавшая систему, признается, что секрет успеха в Agile техниках и продвинутом использовании Jira, Slask’а и Trello
#CRMотдыхает
#DataEngineering
👍2
Kaggle штука не простая)😅
Поднялся за ночь на 426 мест вверх, но до медали все равно не долетел)☄️🤪
А не запустить ли мне курс - как НЕ выиграть медаль на Kaggle? 🤔🤔
Решил поделиться - потому что иногда важнее набраться опыта, чем урвать призовые.
PS: Сорева по NLP на языке Хинди - вообще ничего не мог прочитать, чисто на метрики опирался. 🙂
PPS: В паре мест надо мной два индуса Kaggle-мастера🤙
Поднялся за ночь на 426 мест вверх, но до медали все равно не долетел)☄️🤪
А не запустить ли мне курс - как НЕ выиграть медаль на Kaggle? 🤔🤔
Решил поделиться - потому что иногда важнее набраться опыта, чем урвать призовые.
PS: Сорева по NLP на языке Хинди - вообще ничего не мог прочитать, чисто на метрики опирался. 🙂
PPS: В паре мест надо мной два индуса Kaggle-мастера🤙
Пофармил на этих выходных хакатон от МКБ. Задача интересная, предсказание факта наступления выплаты по гарантии.
Осталась пара дней до конца, но уже все адекватные идеи перебрал пока дошел до топ-5 из 3-x сотен DS'ов 🤺. Оставлю так, посмотрим, подбросит ли меня шафл на привате повыше. 😄🤟
Кто-то писал, что хак для начинающих, но такого не почувствовал. Пока поднимал скор - пришлось попотеть🧠🧠🧠.
#хочумакбук👨💻
#ЛикиНЕиспользовал💦
Интересно чем все закончится?
Накидайте идей в комменты 🤪
Осталась пара дней до конца, но уже все адекватные идеи перебрал пока дошел до топ-5 из 3-x сотен DS'ов 🤺. Оставлю так, посмотрим, подбросит ли меня шафл на привате повыше. 😄🤟
Кто-то писал, что хак для начинающих, но такого не почувствовал. Пока поднимал скор - пришлось попотеть🧠🧠🧠.
#хочумакбук👨💻
#ЛикиНЕиспользовал💦
Интересно чем все закончится?
Накидайте идей в комменты 🤪
Неожиданно много людей написало насчет идей по хаку МКБ. 😳 Что так много людей хотят себе айфон или макбук?😅
Из того что услышал, мало кто вообще пытался дополнительные признаки генерировать 😳😳. Поэтому решил поделится одним успешным кейсом, который на мой взгляд хорошо разделяет данные по таргету. 🧠🚀
Расскажу что это и как я придумал этот признак через пару дней)
#FeatureEngineering на максималках
Из того что услышал, мало кто вообще пытался дополнительные признаки генерировать 😳😳. Поэтому решил поделится одним успешным кейсом, который на мой взгляд хорошо разделяет данные по таргету. 🧠🚀
Расскажу что это и как я придумал этот признак через пару дней)
#FeatureEngineering на максималках
👍1
Братцы, одно скажу!
Цените матерей и максимально стабилизируйте свои решения, чтобы шафлило только вверх ☝️😄
Итог: топ-2 на привате🤟😱
#всемфарту🤞
#МКБ
Цените матерей и максимально стабилизируйте свои решения, чтобы шафлило только вверх ☝️😄
Итог: топ-2 на привате🤟😱
#всемфарту🤞
#МКБ
👍1
Выкладываю своё решение по хакатону от МКБ на топ-2. Забирайте на разбор)🍿🎬
- Потрачено времени - 4 дня (full time)
- Сгенерировано 210 новых признаков🚵
- Только 10 новых признаков дают резкий прирост в точности
- Финальная модель - ансамбль двух катбустов🐈 🐈
- Результат - 2й на привате🏆
Из ощущений о кейсе:
- 70% успеха - это новые признаки / работа с данными
- 20% успеха - это работа с моделью / коддинг
- 10% понимание доменной области / или гугление
Ссылка на GitHub: github.com/a-milenkin/MKB_hack
Отдельными постами расскажу про фишки/трюки, которые сработали.
#two_cats_to_top
#забирай_и_побеждай
- Потрачено времени - 4 дня (full time)
- Сгенерировано 210 новых признаков🚵
- Только 10 новых признаков дают резкий прирост в точности
- Финальная модель - ансамбль двух катбустов🐈 🐈
- Результат - 2й на привате🏆
Из ощущений о кейсе:
- 70% успеха - это новые признаки / работа с данными
- 20% успеха - это работа с моделью / коддинг
- 10% понимание доменной области / или гугление
Ссылка на GitHub: github.com/a-milenkin/MKB_hack
Отдельными постами расскажу про фишки/трюки, которые сработали.
#two_cats_to_top
#забирай_и_побеждай
🔥3
#Трюк № 35 - стабилизация решений🛹⚖️
Представьте такую ситуацию, вы потратили уйму времени, чтобы занять лидирующую позицию в топе лидерборда. А после оценки вашей модели на приватной выборке - ваш результат уходит в закат 🌅, а точнее слетает на N позиций вниз🛬. Что вы чувствуете? 🤷♀️😕🌡
Что ж, сейчас дядя Саша расскажет одну Kaggle'скую фишку, как можно взять шафл под свой контроль и скидывать вниз по лидерборду всех, кто плохо пристегнулся💺.
Сама процедура прозвучит как абсурд, как бессмысленная операция, как бред больного, но метод на моей практике показал себя хорошо. (Пруф эффективности трюка на скрине ниже)
Идея трюка такая:
1 - Берем модель, фиксируем random_state/seed модели, обучаем, сохраняем.
2 - Создаем новую точно такую же модель, фиксируем НОВЫЙ random_state, обучаем, сохраняем.
3 - Делаем так несколько раз .
4 - Далее просто усредняем прогнозы полученных моделей с разными seed'ами. Все🙅♂️
Сама точность прогноза обычно не отличается. Она даже может быть больше/меньше, чем без усреднения.
Но преимущество в том, что такой ответ более стабильный по множеству причин. Эту идею часто используют не только в классическом ML, но даже в CV, NLP, GAN'ах.
P.S. - Если ваша модель детерминированная (linear regression), то можно зайти с другой стороны. Берем K-фолдное разбиение и повторяем его несколько раз при разных random_state'ах. Результаты усредняем.
#теперь_фарт_в_твоей_команде
Представьте такую ситуацию, вы потратили уйму времени, чтобы занять лидирующую позицию в топе лидерборда. А после оценки вашей модели на приватной выборке - ваш результат уходит в закат 🌅, а точнее слетает на N позиций вниз🛬. Что вы чувствуете? 🤷♀️😕🌡
Что ж, сейчас дядя Саша расскажет одну Kaggle'скую фишку, как можно взять шафл под свой контроль и скидывать вниз по лидерборду всех, кто плохо пристегнулся💺.
Сама процедура прозвучит как абсурд, как бессмысленная операция, как бред больного, но метод на моей практике показал себя хорошо. (Пруф эффективности трюка на скрине ниже)
Идея трюка такая:
1 - Берем модель, фиксируем random_state/seed модели, обучаем, сохраняем.
2 - Создаем новую точно такую же модель, фиксируем НОВЫЙ random_state, обучаем, сохраняем.
3 - Делаем так несколько раз .
4 - Далее просто усредняем прогнозы полученных моделей с разными seed'ами. Все🙅♂️
Сама точность прогноза обычно не отличается. Она даже может быть больше/меньше, чем без усреднения.
Но преимущество в том, что такой ответ более стабильный по множеству причин. Эту идею часто используют не только в классическом ML, но даже в CV, NLP, GAN'ах.
P.S. - Если ваша модель детерминированная (linear regression), то можно зайти с другой стороны. Берем K-фолдное разбиение и повторяем его несколько раз при разных random_state'ах. Результаты усредняем.
#теперь_фарт_в_твоей_команде
👍5