🏆 Data Feeling | AI
Уперлись с командой в очень необычный кейс ... Вот у нас есть три предобученные модели, на тесте эти модели дают метрику 0.90, 0.80 и 0.70. (чем больше, тем лучше) Мы решили построить и отвалидировать ансамбль из трех моделей на трейне. Подали прогнозы моделей…
А ларчик просто открывался...
🧑💻 Пока мы с вами накидывали идеи, как разрешить парадокс с падением качества на тесте, выяснилось, что киллер фичи для теста брались просто-напросто со сдвигом.
📈 Так как в чемпионате Novozymes в качестве метрики качества используется корреляция Спирмена, то имеет смысл заменять числа в ответе на их ранги (scipy.rankdata()). Так вот дело было в том, что для прогноза мы тупо взяли не оригинал фичи, а ее ранжированное значение. Хотя учились на оригинальных чиселках.
🧠 Как догадался? Тупо решил проверить руками разницу распределений фичей на тесте и трейне. Далее заметил, что максимальное значении некоторых фич на тесте совпадает с числом строк в тесте. Совпадение?! Нет!- Подумал я. Overall, проводить тест на data quality бывает полезно. Иначе десткие факапы неизбежны.
😐 И конечно не доверяйте своим сокомандникам полностью) Всех всегда надо проверять! Кто-то постоянно норовит слить победу команды своей невнимательностью. То id-ники дублированные пришлют, то порядок неверный намутят, то фичи с ошибками, а могут тупо пустые значения тебе прислать, не проверив корректность работы скриптов.🤹♀️ Бывают иногда такие баги, что я даже теряюсь в догадках, как такое расхлебать порой.
Как вывозить такое? Respect, but not suspect! Спокойно указывать на ошибки и прививать тиммейтам полезные практики, наблюдая, как они растут и тащат все лучше и лучше.
📈 Так как в чемпионате Novozymes в качестве метрики качества используется корреляция Спирмена, то имеет смысл заменять числа в ответе на их ранги (scipy.rankdata()). Так вот дело было в том, что для прогноза мы тупо взяли не оригинал фичи, а ее ранжированное значение. Хотя учились на оригинальных чиселках.
🧠 Как догадался? Тупо решил проверить руками разницу распределений фичей на тесте и трейне. Далее заметил, что максимальное значении некоторых фич на тесте совпадает с числом строк в тесте. Совпадение?! Нет!- Подумал я. Overall, проводить тест на data quality бывает полезно. Иначе десткие факапы неизбежны.
Как вывозить такое? Respect, but not suspect! Спокойно указывать на ошибки и прививать тиммейтам полезные практики, наблюдая, как они растут и тащат все лучше и лучше.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51👎3🤔3🔥2😁2
Традиционно, ставьте 👍 или 👎 , если верите или не верите, что подкинет вверх в сореве по энзимам.
Рискнул выбрать 1 сабмит на золото🥇, второй на серебро🥈. Почти для каждого сабмита свои риски. Утром посмотрим, что зайдет.
Кстати, в сабмите на серебро порядка 20 моделей. Угадайте, сколько в золоте?
Рискнул выбрать 1 сабмит на золото🥇, второй на серебро🥈. Почти для каждого сабмита свои риски. Утром посмотрим, что зайдет.
Кстати, в сабмите на серебро порядка 20 моделей. Угадайте, сколько в золоте?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67👎20🔥4😁2
🏆 Data Feeling | AI
Традиционно, ставьте 👍 или 👎 , если верите или не верите, что подкинет вверх в сореве по энзимам. Рискнул выбрать 1 сабмит на золото🥇, второй на серебро🥈. Почти для каждого сабмита свои риски. Утром посмотрим, что зайдет. Кстати, в сабмите на серебро порядка…
Бум-с 😅🫣🥹
Получается, я как Икар. Приблизился к солнцу слишком близко и обжог крылья…
Рандом лютейший. Паблик лб вообще не отражал истинную картину. Посидел пару часов в золоте и отлетел😑
Получается, я как Икар. Приблизился к солнцу слишком близко и обжог крылья…
Рандом лютейший. Паблик лб вообще не отражал истинную картину. Посидел пару часов в золоте и отлетел
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔21🔥5👍2👎2🎉2😁1
🏆 Data Feeling | AI
Бум-с 😅🫣🥹 Получается, я как Икар. Приблизился к солнцу слишком близко и обжог крылья… Рандом лютейший. Паблик лб вообще не отражал истинную картину. Посидел пару часов в золоте и отлетел 😑
Был в золоте. Слетел. Можно ли было что-то сделать? Попытался ответить себе на этот вопрос и понял, что нет.
🧐 У нас в решениях оказался сабмит на золото🥇, но мы его не выбрали. Мог ли я догадаться его выбрать? Едва ли...
👎 Лучшие решения по локальной валидации подлетели вверх, но не долетели даже до медалей.
👎 Лучшие решения по паблик борду отлетели на 1000 позиций вниз.
🤩 Окей, есть несколько не моих решений, которые хорошо коррелировали с приватным скором. Можно было включить эти решения в бленд. Однако, вместо этого мы включили эти решения как фичи для стекинга, что идейно было даже лучше. Более того, полученную модель сблендили с другими сильными моделями.
🧑💻 В общем, возможно стекинг на основе сильных моделей с последующим блендингом этих же самых моделей с весами по скору с теста мог спасти.
⚖️ Однако, это же надо было угадать какие модели смешивать... Получается, лучшим способом выиграть было - остановиться две недели назад =)
🌅 В общем, ни о чем не жалею. Да, потратили много времени всей командой. Зато в моем курсе теперь появится модуль с парсингом данных из внешних сервисом и работой с разными API. Этот навык тащил.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58😁3👎1
🏆 Data Feeling | AI
Квартира в центре Отчаялся искать, а сроки горят, поэтому пользуясь своим положением хочу оперативно среди своих найти жильцов в квартиру на Октябрьской, в которой прожил с кайфом с начала лета. Коротко: На полгода-год сдается оборудованная для комфортного…
Снова пользуюсь своим положением во благо. Извините.
В общем, нашел тогда студента, которому сдал квартиру. А он спустя три месяца уехал из России внезапно. Кстати, в Таиланд 😅
В общем, снова ищу человека, кому пересдам квартиру со сладкими условиями.
Пишите в лс @Aleron75
БЕЗ ЗАЛОГА и КОМИССИИ
🍏 Закрыто
В общем, нашел тогда студента, которому сдал квартиру. А он спустя три месяца уехал из России внезапно. Кстати, в Таиланд 😅
В общем, снова ищу человека, кому пересдам квартиру со сладкими условиями.
Пишите в лс @Aleron75
БЕЗ ЗАЛОГА и КОМИССИИ
🍏 Закрыто
🔥16👎6👍3😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥55🎉30👍7👎2❤1
👇А вот это я месяц назад. Еще пока не знаю, что меня ждет. Наивно рассуждаю о стратегии возврата 😂
👎9👍1
Forwarded from Aleron Backstage
This media is not supported in your browser
VIEW IN TELEGRAM
😁10👎5🔥5❤2
Положительно влияю?
🙌 Организовал вчера уже вторую поездку по островам Пхукета на яхте с IT ребятками. Проводили закат, покатали на сапах, попрыгали со второго этажа в воду. Было в этот раз 25 талантов.
🤔 Зачем? Общение с единомышленниками на отвлеченные от работы темы качественно перезагружает. Потом проще фокусируешься в работе. Мозг легко вгрызается в новые задачи. А еще мне классно, когда вокруг много интересных людей нетворкаются.
😳 А один особенный момент растопил вчера мое сердце напрочь. Дело было так. Стою общаюсь с 3-мя data scientist’ами. Плывем где-то в океане. В один момент звучит вопрос почему Таиланд? И все трое отвечают - потому что увидели пост Алерона про его опыт пребывания в Таиланде. Как же было приятно в этот момент от этого. Чуть на небо не взлетел 😄
😅 Еще клево было узнать, что на яхте было одновременно два прОдукта из двух конкурирующих онлайн-школ. Обменялись опытом (Не skillbox 😅)
🥳 Кстати, это уже моя третья нетворкинг сессия. Первая была в Москве. В общем, если вести блог, то не только ради шеринга знаниям, но еще и ради объединения талантов. Надеюсь, вы тоже убеждались на своем опыте, как сильно может забустить вас встреча с нужным человеком.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥87👍24👎4
🔥15👎6👍1
Forwarded from Aleron Milenkin
This media is not supported in your browser
VIEW IN TELEGRAM
👍47🔥35❤9👎4
❤53👍12👎7🤔7🔥2🏆2😁1
Please open Telegram to view this post
VIEW IN TELEGRAM
❤33😁21👍9👎9
🏆 Data Feeling | AI
Video message
🎓А вот собственно статья о том, как меня взломали и как этого можно было избежать.
🧩 Ссылка на хабр
🎯 Написать статью о угоне моего канала было принципиальным для меня моментом. Пусть в этом мире как можно больше мошенников сломают зубы о тех, кто предупрежден.
🌶️ Что интересно, но даже IT Борода на это попался. Схема угона красивая)
🧩 Ссылка на хабр
🎯 Написать статью о угоне моего канала было принципиальным для меня моментом. Пусть в этом мире как можно больше мошенников сломают зубы о тех, кто предупрежден.
🌶️ Что интересно, но даже IT Борода на это попался. Схема угона красивая)
Хабр
Угнали все мои телеграм каналы на 50к+ подписчиков. Вернул спустя месяц. План действий
Привет, чемпион! Будем считать, что читатель этой статьи столкнулся с кражей своих доступов к телеграм каналу. Кратко расскажу мою историю кражи канала и дам пошаговый план действий, как вернуть...
👍24❤9😁6👎3🏆2🎉1
Forwarded from Aleron Backstage
Не говорите мне, что вы все это знали)
🧠 Раньше я ужимал только float типы в pandas, теперь завел привычку ужимают и категориальные признаки.
😳 Оказывается, парой строк можно существенно снизить затраты по памяти.
🧠 Раньше я ужимал только float типы в pandas, теперь завел привычку ужимают и категориальные признаки.
😳 Оказывается, парой строк можно существенно снизить затраты по памяти.
🏆54👍30🔥14🤔9👎8😁4❤2
Forwarded from Aleron Backstage
😅 Так и знал, что в комментах найдется тот, кому это было очевидно
🫡 Поэтому вот вам второе преимущество - это ускорение по времени. 🎓 Разумеется, вы тоже это все знали, я так чисто просто напомнил.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43😁10👎7🏆6❤1🎉1
💪 Протестил точность модели на задачах классификации на нескольких бенчмарках. Везде дает SOTA результаты. Градиентные бустинги разносит в щепки. Круто же!
@datafeeling
Please open Telegram to view this post
VIEW IN TELEGRAM
😁148🔥30🎉12👎5❤4🏆3🤔1