Уперлись с командой в очень необычный кейс ...
Вот у нас есть три предобученные модели, на тесте эти модели дают метрику 0.90, 0.80 и 0.70. (чем больше, тем лучше)
Мы решили построить и отвалидировать ансамбль из трех моделей на трейне. Подали прогнозы моделей как фичи + дополнительные фичи в бустинг. Как итог, бустинг отранжировал выходы моделей по важности абсолютно противоположно тесту. Более того, на тесте ансамбль дал значение метрики r ~ 0.75😳 Хотя если тупо усреднить с весами, дает >0.9
Вот думаем, что делать) Как смешивать? Как выбить мета моделью больше 0.9? Метрика на тесте - корреляция Спирмена.
Из идей, навесить на фичи веса, чтоб бустинг через "не хочу" ранжировал фичи в соответствии с информацией с теста.
#Kaggle
Вот у нас есть три предобученные модели, на тесте эти модели дают метрику 0.90, 0.80 и 0.70. (чем больше, тем лучше)
Мы решили построить и отвалидировать ансамбль из трех моделей на трейне. Подали прогнозы моделей как фичи + дополнительные фичи в бустинг. Как итог, бустинг отранжировал выходы моделей по важности абсолютно противоположно тесту. Более того, на тесте ансамбль дал значение метрики r ~ 0.75
Вот думаем, что делать) Как смешивать? Как выбить мета моделью больше 0.9? Метрика на тесте - корреляция Спирмена.
Из идей, навесить на фичи веса, чтоб бустинг через "не хочу" ранжировал фичи в соответствии с информацией с теста.
#Kaggle
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🏆5
👆В целом, это верный путь почти в любой сфере. Если сильно надо - бьешь в одну точку, пока не треснет.
😳 Кстати, спасибо за ваши ответы вчера. Мы все внимательно прочитали и нашли пару идей для себя. Мне понравились варианты с Adversarial Validation и со смешиванием моделей заранее в единую фичу с весами пропорционально известной точности (корреляции) на тесте. Последнее, кажется, может докинуть. Надеюсь, вам тоже было полезно подумать над кейсом.
💪 Аудитория у меня, конечно, заряженная
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥38
А пока на борде идет неразбериха, мы продолжаем с тиммейтами валидировать модели в текущем чемпионате. Радует, что локальная валидация коррелирует с бордом.
✅ Еще один, но уже нормальный трюк, который внезапно помог - это учить ансамбль моделей на тех данных, на которых базовые модели имеют такую же точность как и на тесте. То есть выбираете «легкие» для модели объекты. Это аля такой мета-лернинг.
#kaggle
#Novozymes
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16😁5🔥4
Выиграть 100к или как написать лучшую статью на Хабре.
😐 Год уходит. Подводить итоги буду завтра, а сейчас просто хочу поделиться небольшой радостью. Выиграл в конкурсе авторов!
😄 За этот год я написал 8 статей на Хабре. Почти каждая была в топе лучших среди недели. Три из них висели в топе лучших за месяц. Про массовые репосты другими группами вообще молчу. А одна оказалась в топе всех топов, закинув меня в топ-1 на Хабре и, как выяснилось сегодня, принесла мне возможность покрыть расходы на идею с курсами на 100к, о которой писал выше.
🤖 Кстати, перед публикацией той статьи у меня не было в мыслях выставлять ее на конкурс, я просто классно провел время играя с новой игрушкой и фантазируя над альтернативами для лого red_mad_robot. На момент завершения статьи, у меня встал выбор, добавить в статью рекламу и получить ~3-5к или просто публикануть, включив в конкурс.
🍽 Чтоб выиграть, мне надо было побороть хотя бы победителя прошлых лет. Спарсив рейтинги других статей Хабра и сравнив со своими - понял, что мат ожидание выигрыша трое кратно выше, чем просто разовая плата. Как видите, оценка была хорошей.
😳 Знаете почему я вообще начал писать свои статьи? Все от дури! Однажды ночью мою голову просто разрывал поток мыслей и идей, не дающих спать.
😵💫 Не переселив желание поделиться, я просто сел за чистый ворд и начала писать, облегчая так свой "приступ". Так родилась моя первая статья, которую по фану решил заслать на Хабр утром. Тот день был моим первым рабочим днем в Х5.
🤫 Мне очень нравится делиться/писать про штуки, которыми редко кто стал бы делиться. Всякий технический схематоз - это прям мое любимое, то за что я полюбил Хабр.
👻 Скучно писать что-то, про что писали уже до тебя, а вот накропать что-то такое от чего читатель сказал бы: "Вау, это надо запомнить" - это бесценно.
#Хабр #Aleron
#red_mad_robot #ruvds
@datafeeling
🤫 Мне очень нравится делиться/писать про штуки, которыми редко кто стал бы делиться. Всякий технический схематоз - это прям мое любимое, то за что я полюбил Хабр.
#Хабр #Aleron
#red_mad_robot #ruvds
@datafeeling
Please open Telegram to view this post
VIEW IN TELEGRAM
👍77🔥20🏆5❤2👎1
🏆 Data Feeling | AI
Говорят, новый год не начнется, пока не составишь планы!🎅🏻 Выделил несколько пунктов на этот год, связанные с DS, погнали! За этот год в моих планах: - Отвоевать официальный титул Kaggle мастера🤹♂️🏵 - Запустить вебинары совместно с Deep Learning School👨🎨…
Традиционно подвожу итоги года и ставлю новые цели 🎯
⛔️ Титул Kaggle мастера - эх, не хватило золотой медали, что ж - стало быть за 2023-й год надо добить уже до Kaggle Grand мастера
✅ Вебинары совместно с Deep Learning School - тут я постарался и внес свой вклад в несколько модулей. Про новый запуски DLS слышали многие.
✅ Довести 3-х людей до медалек на Kaggle - я довел 7-х человек.
⛔️ Стать лидом в X5 - не вышло, но я получил за год большой опыт управления технической командой из 3-х человек.
🟡 Выпустить авторский интенсив по DS - анонса не было, но уже в январе мы его запустим.
✅ Опубликовать научную статью - за этот код я вошел в авторство двух научных статей, где закрывал анализ биологических данных.
✅ Не было моей целью, но горжусь, что под моим началом запустились 7 интересных data блогеров. Приятно было повлиять так сильно на индустрию анализа данных. Это круто!
💪 Что сделаю за 2023-й год?
🌟 Kaggle Grand Master
🌟 Выведу в медали на Kaggle 30 человек
🌟 Сдам IELTS на 8 баллов
🌟 Проведу через свой курс по соревновательному анализу данных 300 человек.
🌟 Нарешаю 250 LeetCode задачек
🌟 Выведу свой пет-проект по аналитике на самоокупаемость
🌟 Пройду и засниму собеседование в МААНГ-like компанию
🌟 Напишу на Хабр 25 новых статей.
🌟 10К подписчиков @datafeeling
Год будет драйвовее предыдущего. Всех с наступающим, мои чемпионы!
⛔️ Стать лидом в X5 - не вышло, но я получил за год большой опыт управления технической командой из 3-х человек.
🟡 Выпустить авторский интенсив по DS - анонса не было, но уже в январе мы его запустим.
Год будет драйвовее предыдущего. Всех с наступающим, мои чемпионы!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥91👍26❤6👎2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥54👍16🎉9❤7👎1
🏆 Data Feeling | AI
Уперлись с командой в очень необычный кейс ... Вот у нас есть три предобученные модели, на тесте эти модели дают метрику 0.90, 0.80 и 0.70. (чем больше, тем лучше) Мы решили построить и отвалидировать ансамбль из трех моделей на трейне. Подали прогнозы моделей…
А ларчик просто открывался...
🧑💻 Пока мы с вами накидывали идеи, как разрешить парадокс с падением качества на тесте, выяснилось, что киллер фичи для теста брались просто-напросто со сдвигом.
📈 Так как в чемпионате Novozymes в качестве метрики качества используется корреляция Спирмена, то имеет смысл заменять числа в ответе на их ранги (scipy.rankdata()). Так вот дело было в том, что для прогноза мы тупо взяли не оригинал фичи, а ее ранжированное значение. Хотя учились на оригинальных чиселках.
🧠 Как догадался? Тупо решил проверить руками разницу распределений фичей на тесте и трейне. Далее заметил, что максимальное значении некоторых фич на тесте совпадает с числом строк в тесте. Совпадение?! Нет!- Подумал я. Overall, проводить тест на data quality бывает полезно. Иначе десткие факапы неизбежны.
😐 И конечно не доверяйте своим сокомандникам полностью) Всех всегда надо проверять! Кто-то постоянно норовит слить победу команды своей невнимательностью. То id-ники дублированные пришлют, то порядок неверный намутят, то фичи с ошибками, а могут тупо пустые значения тебе прислать, не проверив корректность работы скриптов.🤹♀️ Бывают иногда такие баги, что я даже теряюсь в догадках, как такое расхлебать порой.
Как вывозить такое? Respect, but not suspect! Спокойно указывать на ошибки и прививать тиммейтам полезные практики, наблюдая, как они растут и тащат все лучше и лучше.
📈 Так как в чемпионате Novozymes в качестве метрики качества используется корреляция Спирмена, то имеет смысл заменять числа в ответе на их ранги (scipy.rankdata()). Так вот дело было в том, что для прогноза мы тупо взяли не оригинал фичи, а ее ранжированное значение. Хотя учились на оригинальных чиселках.
🧠 Как догадался? Тупо решил проверить руками разницу распределений фичей на тесте и трейне. Далее заметил, что максимальное значении некоторых фич на тесте совпадает с числом строк в тесте. Совпадение?! Нет!- Подумал я. Overall, проводить тест на data quality бывает полезно. Иначе десткие факапы неизбежны.
Как вывозить такое? Respect, but not suspect! Спокойно указывать на ошибки и прививать тиммейтам полезные практики, наблюдая, как они растут и тащат все лучше и лучше.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51👎3🤔3🔥2😁2
Традиционно, ставьте 👍 или 👎 , если верите или не верите, что подкинет вверх в сореве по энзимам.
Рискнул выбрать 1 сабмит на золото🥇, второй на серебро🥈. Почти для каждого сабмита свои риски. Утром посмотрим, что зайдет.
Кстати, в сабмите на серебро порядка 20 моделей. Угадайте, сколько в золоте?
Рискнул выбрать 1 сабмит на золото🥇, второй на серебро🥈. Почти для каждого сабмита свои риски. Утром посмотрим, что зайдет.
Кстати, в сабмите на серебро порядка 20 моделей. Угадайте, сколько в золоте?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67👎20🔥4😁2
🏆 Data Feeling | AI
Традиционно, ставьте 👍 или 👎 , если верите или не верите, что подкинет вверх в сореве по энзимам. Рискнул выбрать 1 сабмит на золото🥇, второй на серебро🥈. Почти для каждого сабмита свои риски. Утром посмотрим, что зайдет. Кстати, в сабмите на серебро порядка…
Бум-с 😅🫣🥹
Получается, я как Икар. Приблизился к солнцу слишком близко и обжог крылья…
Рандом лютейший. Паблик лб вообще не отражал истинную картину. Посидел пару часов в золоте и отлетел😑
Получается, я как Икар. Приблизился к солнцу слишком близко и обжог крылья…
Рандом лютейший. Паблик лб вообще не отражал истинную картину. Посидел пару часов в золоте и отлетел
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔21🔥5👍2👎2🎉2😁1
🏆 Data Feeling | AI
Бум-с 😅🫣🥹 Получается, я как Икар. Приблизился к солнцу слишком близко и обжог крылья… Рандом лютейший. Паблик лб вообще не отражал истинную картину. Посидел пару часов в золоте и отлетел 😑
Был в золоте. Слетел. Можно ли было что-то сделать? Попытался ответить себе на этот вопрос и понял, что нет.
🧐 У нас в решениях оказался сабмит на золото🥇, но мы его не выбрали. Мог ли я догадаться его выбрать? Едва ли...
👎 Лучшие решения по локальной валидации подлетели вверх, но не долетели даже до медалей.
👎 Лучшие решения по паблик борду отлетели на 1000 позиций вниз.
🤩 Окей, есть несколько не моих решений, которые хорошо коррелировали с приватным скором. Можно было включить эти решения в бленд. Однако, вместо этого мы включили эти решения как фичи для стекинга, что идейно было даже лучше. Более того, полученную модель сблендили с другими сильными моделями.
🧑💻 В общем, возможно стекинг на основе сильных моделей с последующим блендингом этих же самых моделей с весами по скору с теста мог спасти.
⚖️ Однако, это же надо было угадать какие модели смешивать... Получается, лучшим способом выиграть было - остановиться две недели назад =)
🌅 В общем, ни о чем не жалею. Да, потратили много времени всей командой. Зато в моем курсе теперь появится модуль с парсингом данных из внешних сервисом и работой с разными API. Этот навык тащил.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58😁3👎1
🏆 Data Feeling | AI
Квартира в центре Отчаялся искать, а сроки горят, поэтому пользуясь своим положением хочу оперативно среди своих найти жильцов в квартиру на Октябрьской, в которой прожил с кайфом с начала лета. Коротко: На полгода-год сдается оборудованная для комфортного…
Снова пользуюсь своим положением во благо. Извините.
В общем, нашел тогда студента, которому сдал квартиру. А он спустя три месяца уехал из России внезапно. Кстати, в Таиланд 😅
В общем, снова ищу человека, кому пересдам квартиру со сладкими условиями.
Пишите в лс @Aleron75
БЕЗ ЗАЛОГА и КОМИССИИ
🍏 Закрыто
В общем, нашел тогда студента, которому сдал квартиру. А он спустя три месяца уехал из России внезапно. Кстати, в Таиланд 😅
В общем, снова ищу человека, кому пересдам квартиру со сладкими условиями.
Пишите в лс @Aleron75
БЕЗ ЗАЛОГА и КОМИССИИ
🍏 Закрыто
🔥16👎6👍3😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥55🎉30👍7👎2❤1
👇А вот это я месяц назад. Еще пока не знаю, что меня ждет. Наивно рассуждаю о стратегии возврата 😂
👎9👍1
Forwarded from Aleron Backstage
This media is not supported in your browser
VIEW IN TELEGRAM
😁10👎5🔥5❤2
Положительно влияю?
🙌 Организовал вчера уже вторую поездку по островам Пхукета на яхте с IT ребятками. Проводили закат, покатали на сапах, попрыгали со второго этажа в воду. Было в этот раз 25 талантов.
🤔 Зачем? Общение с единомышленниками на отвлеченные от работы темы качественно перезагружает. Потом проще фокусируешься в работе. Мозг легко вгрызается в новые задачи. А еще мне классно, когда вокруг много интересных людей нетворкаются.
😳 А один особенный момент растопил вчера мое сердце напрочь. Дело было так. Стою общаюсь с 3-мя data scientist’ами. Плывем где-то в океане. В один момент звучит вопрос почему Таиланд? И все трое отвечают - потому что увидели пост Алерона про его опыт пребывания в Таиланде. Как же было приятно в этот момент от этого. Чуть на небо не взлетел 😄
😅 Еще клево было узнать, что на яхте было одновременно два прОдукта из двух конкурирующих онлайн-школ. Обменялись опытом (Не skillbox 😅)
🥳 Кстати, это уже моя третья нетворкинг сессия. Первая была в Москве. В общем, если вести блог, то не только ради шеринга знаниям, но еще и ради объединения талантов. Надеюсь, вы тоже убеждались на своем опыте, как сильно может забустить вас встреча с нужным человеком.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥87👍24👎4
🔥15👎6👍1
Forwarded from Aleron Milenkin
This media is not supported in your browser
VIEW IN TELEGRAM
👍47🔥35❤9👎4
❤53👍12👎7🤔7🔥2🏆2😁1