🏆 Data Feeling | AI – Telegram
🏆 Data Feeling | AI
15.9K subscribers
732 photos
222 videos
6 files
469 links
IT предприниматель и препод 🧑‍🏫
ex-ML лидер в Dodo Brands 🦤🍕
Прокачиваю людей в Data Science 🚀
Победитель Stepik Awards 🏆
Kaggle Expert 🤹‍♀️
Создатель @Speakadora_bot @big_llm_course

РКН https://clik.now/datafeeling
Алерон @Ale_v2
Download Telegram
Уперлись с командой в очень необычный кейс ...

Вот у нас есть три предобученные модели, на тесте эти модели дают метрику 0.90, 0.80 и 0.70. (чем больше, тем лучше)

Мы решили построить и отвалидировать ансамбль из трех моделей на трейне. Подали прогнозы моделей как фичи + дополнительные фичи в бустинг. Как итог, бустинг отранжировал выходы моделей по важности абсолютно противоположно тесту. Более того, на тесте ансамбль дал значение метрики r ~ 0.75 😳 Хотя если тупо усреднить с весами, дает >0.9

Вот думаем, что делать) Как смешивать? Как выбить мета моделью больше 0.9? Метрика на тесте - корреляция Спирмена.

Из идей, навесить на фичи веса, чтоб бустинг через "не хочу" ранжировал фичи в соответствии с информацией с теста.

#Kaggle
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🏆5
👆В целом, это верный путь почти в любой сфере. Если сильно надо - бьешь в одну точку, пока не треснет.

😳 Кстати, спасибо за ваши ответы вчера. Мы все внимательно прочитали и нашли пару идей для себя. Мне понравились варианты с Adversarial Validation и со смешиванием моделей заранее в единую фичу с весами пропорционально известной точности (корреляции) на тесте. Последнее, кажется, может докинуть. Надеюсь, вам тоже было полезно подумать над кейсом.

💪 Аудитория у меня, конечно, заряженная
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥38
🏆 Взобраться в топ Kaggle без ML

⛔️ Узнал необычный “трюк” по соревнованиям, где метрика - корреляция.

💥 Накидываете на свой ответ шум и скор с ненулевой вероятностью подрастает. Если скор подрос, накидываете еще шум и так пока не станете медалистом. Оказывается, нужно не так много попыток, чтоб зайти в золото и обессмыслить лидерборд.

🤔 Вопрос, можно ли так выиграть на привате?

А пока на борде идет неразбериха, мы продолжаем с тиммейтами валидировать модели в текущем чемпионате. Радует, что локальная валидация коррелирует с бордом.

Еще один, но уже нормальный трюк, который внезапно помог - это учить ансамбль моделей на тех данных, на которых базовые модели имеют такую же точность как и на тесте. То есть выбираете «легкие» для модели объекты. Это аля такой мета-лернинг.

🤪 Очень парадоксально, но в этом чемпионате можно проверять модели сперва на тесте, а только потом уже валидировать на трейне

#kaggle
#Novozymes
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16😁5🔥4
Выиграть 100к или как написать лучшую статью на Хабре.

😐 Год уходит. Подводить итоги буду завтра, а сейчас просто хочу поделиться небольшой радостью. Выиграл в конкурсе авторов!

😄 За этот год я написал 8 статей на Хабре. Почти каждая была в топе лучших среди недели. Три из них висели в топе лучших за месяц. Про массовые репосты другими группами вообще молчу. А одна оказалась в топе всех топов, закинув меня в топ-1 на Хабре и, как выяснилось сегодня, принесла мне возможность покрыть расходы на идею с курсами на 100к, о которой писал выше.

🤖 Кстати, перед публикацией той статьи у меня не было в мыслях выставлять ее на конкурс, я просто классно провел время играя с новой игрушкой и фантазируя над альтернативами для лого red_mad_robot. На момент завершения статьи, у меня встал выбор, добавить в статью рекламу и получить ~3-5к или просто публикануть, включив в конкурс.

🍽 Чтоб выиграть, мне надо было побороть хотя бы победителя прошлых лет. Спарсив рейтинги других статей Хабра и сравнив со своими - понял, что мат ожидание выигрыша трое кратно выше, чем просто разовая плата. Как видите, оценка была хорошей.

😳 Знаете почему я вообще начал писать свои статьи? Все от дури! Однажды ночью мою голову просто разрывал поток мыслей и идей, не дающих спать.

😵‍💫 Не переселив желание поделиться, я просто сел за чистый ворд и начала писать, облегчая так свой "приступ". Так родилась моя первая статья, которую по фану решил заслать на Хабр утром. Тот день был моим первым рабочим днем в Х5.

🤫 Мне очень нравится делиться/писать про штуки, которыми редко кто стал бы делиться. Всякий технический схематоз - это прям мое любимое, то за что я полюбил Хабр.

👻 Скучно писать что-то, про что писали уже до тебя, а вот накропать что-то такое от чего читатель сказал бы: "Вау, это надо запомнить" - это бесценно.

#Хабр #Aleron
#red_mad_robot #ruvds
@datafeeling
Please open Telegram to view this post
VIEW IN TELEGRAM
👍77🔥20🏆52👎1
🏆 Data Feeling | AI
Говорят, новый год не начнется, пока не составишь планы!🎅🏻 Выделил несколько пунктов на этот год, связанные с DS, погнали! За этот год в моих планах: - Отвоевать официальный титул Kaggle мастера🤹‍♂️🏵 - Запустить вебинары совместно с Deep Learning School👨‍🎨
Традиционно подвожу итоги года и ставлю новые цели 🎯

⛔️ Титул Kaggle мастера - эх, не хватило золотой медали, что ж - стало быть за 2023-й год надо добить уже до Kaggle Grand мастера
Вебинары совместно с Deep Learning School - тут я постарался и внес свой вклад в несколько модулей. Про новый запуски DLS слышали многие.
Довести 3-х людей до медалек на Kaggle - я довел 7-х человек.
⛔️ Стать лидом в X5 - не вышло, но я получил за год большой опыт управления технической командой из 3-х человек.
🟡 Выпустить авторский интенсив по DS - анонса не было, но уже в январе мы его запустим.
Опубликовать научную статью - за этот код я вошел в авторство двух научных статей, где закрывал анализ биологических данных.

Не было моей целью, но горжусь, что под моим началом запустились 7 интересных data блогеров. Приятно было повлиять так сильно на индустрию анализа данных. Это круто!

💪 Что сделаю за 2023-й год?
🌟 Kaggle Grand Master
🌟 Выведу в медали на Kaggle 30 человек
🌟 Сдам IELTS на 8 баллов
🌟 Проведу через свой курс по соревновательному анализу данных 300 человек.
🌟 Нарешаю 250 LeetCode задачек
🌟 Выведу свой пет-проект по аналитике на самоокупаемость
🌟 Пройду и засниму собеседование в МААНГ-like компанию
🌟 Напишу на Хабр 25 новых статей.
🌟 10К подписчиков @datafeeling

Год будет драйвовее предыдущего. Всех с наступающим, мои чемпионы!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥91👍266👎2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥54👍16🎉97👎1
🏆 Data Feeling | AI
Уперлись с командой в очень необычный кейс ... Вот у нас есть три предобученные модели, на тесте эти модели дают метрику 0.90, 0.80 и 0.70. (чем больше, тем лучше) Мы решили построить и отвалидировать ансамбль из трех моделей на трейне. Подали прогнозы моделей…
А ларчик просто открывался...

🧑‍💻 Пока мы с вами накидывали идеи, как разрешить парадокс с падением качества на тесте, выяснилось, что киллер фичи для теста брались просто-напросто со сдвигом.

📈 Так как в чемпионате Novozymes в качестве метрики качества используется корреляция Спирмена, то имеет смысл заменять числа в ответе на их ранги (scipy.rankdata()). Так вот дело было в том, что для прогноза мы тупо взяли не оригинал фичи, а ее ранжированное значение. Хотя учились на оригинальных чиселках.

🧠 Как догадался? Тупо решил проверить руками разницу распределений фичей на тесте и трейне. Далее заметил, что максимальное значении некоторых фич на тесте совпадает с числом строк в тесте. Совпадение?! Нет!- Подумал я. Overall, проводить тест на data quality бывает полезно. Иначе десткие факапы неизбежны.

😐 И конечно не доверяйте своим сокомандникам полностью) Всех всегда надо проверять! Кто-то постоянно норовит слить победу команды своей невнимательностью. То id-ники дублированные пришлют, то порядок неверный намутят, то фичи с ошибками, а могут тупо пустые значения тебе прислать, не проверив корректность работы скриптов.🤹‍♀️ Бывают иногда такие баги, что я даже теряюсь в догадках, как такое расхлебать порой.

Как вывозить такое? Respect, but not suspect! Спокойно указывать на ошибки и прививать тиммейтам полезные практики, наблюдая, как они растут и тащат все лучше и лучше.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51👎3🤔3🔥2😁2
Традиционно, ставьте 👍 или 👎, если верите или не верите, что подкинет вверх в сореве по энзимам.

Рискнул выбрать 1 сабмит на золото🥇, второй на серебро🥈. Почти для каждого сабмита свои риски. Утром посмотрим, что зайдет.

Кстати, в сабмите на серебро порядка 20 моделей. Угадайте, сколько в золоте?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67👎20🔥4😁2
🏆 Data Feeling | AI
Традиционно, ставьте 👍 или 👎, если верите или не верите, что подкинет вверх в сореве по энзимам. Рискнул выбрать 1 сабмит на золото🥇, второй на серебро🥈. Почти для каждого сабмита свои риски. Утром посмотрим, что зайдет. Кстати, в сабмите на серебро порядка…
Бум-с 😅🫣🥹

Получается, я как Икар. Приблизился к солнцу слишком близко и обжог крылья…

Рандом лютейший. Паблик лб вообще не отражал истинную картину. Посидел пару часов в золоте и отлетел 😑
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔21🔥5👍2👎2🎉2😁1
🏆 Data Feeling | AI
Бум-с 😅🫣🥹 Получается, я как Икар. Приблизился к солнцу слишком близко и обжог крылья… Рандом лютейший. Паблик лб вообще не отражал истинную картину. Посидел пару часов в золоте и отлетел 😑
Был в золоте. Слетел. Можно ли было что-то сделать? Попытался ответить себе на этот вопрос и понял, что нет.

🧐 У нас в решениях оказался сабмит на золото🥇, но мы его не выбрали. Мог ли я догадаться его выбрать? Едва ли...

👎 Лучшие решения по локальной валидации подлетели вверх, но не долетели даже до медалей.

👎 Лучшие решения по паблик борду отлетели на 1000 позиций вниз.

🤩 Окей, есть несколько не моих решений, которые хорошо коррелировали с приватным скором. Можно было включить эти решения в бленд. Однако, вместо этого мы включили эти решения как фичи для стекинга, что идейно было даже лучше. Более того, полученную модель сблендили с другими сильными моделями.

🧑‍💻 В общем, возможно стекинг на основе сильных моделей с последующим блендингом этих же самых моделей с весами по скору с теста мог спасти.

⚖️ Однако, это же надо было угадать какие модели смешивать... Получается, лучшим способом выиграть было - остановиться две недели назад =)

🌅 В общем, ни о чем не жалею. Да, потратили много времени всей командой. Зато в моем курсе теперь появится модуль с парсингом данных из внешних сервисом и работой с разными API. Этот навык тащил.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58😁3👎1
🏆 Data Feeling | AI
Квартира в центре Отчаялся искать, а сроки горят, поэтому пользуясь своим положением хочу оперативно среди своих найти жильцов в квартиру на Октябрьской, в которой прожил с кайфом с начала лета. Коротко: На полгода-год сдается оборудованная для комфортного…
Снова пользуюсь своим положением во благо. Извините.

В общем, нашел тогда студента, которому сдал квартиру. А он спустя три месяца уехал из России внезапно. Кстати, в Таиланд 😅

В общем, снова ищу человека, кому пересдам квартиру со сладкими условиями.

Пишите в лс @Aleron75

БЕЗ ЗАЛОГА и КОМИССИИ


🍏 Закрыто
🔥16👎6👍3😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥55🎉30👍7👎21
👇А вот это я месяц назад. Еще пока не знаю, что меня ждет. Наивно рассуждаю о стратегии возврата 😂
👎9👍1
Forwarded from Aleron Backstage
This media is not supported in your browser
VIEW IN TELEGRAM
😁10👎5🔥52
Forwarded from Aleron Backstage
Нет времени объяснять.

Организовал вебинар, а вас позвать забыл.

Ссылка на вебинар. Уже идет!
👍14👎2
Положительно влияю?

🙌 Организовал вчера уже вторую поездку по островам Пхукета на яхте с IT ребятками. Проводили закат, покатали на сапах, попрыгали со второго этажа в воду. Было в этот раз 25 талантов.

🤔 Зачем? Общение с единомышленниками на отвлеченные от работы темы качественно перезагружает. Потом проще фокусируешься в работе. Мозг легко вгрызается в новые задачи. А еще мне классно, когда вокруг много интересных людей нетворкаются.

😳 А один особенный момент растопил вчера мое сердце напрочь. Дело было так. Стою общаюсь с 3-мя data scientist’ами. Плывем где-то в океане. В один момент звучит вопрос почему Таиланд? И все трое отвечают - потому что увидели пост Алерона про его опыт пребывания в Таиланде. Как же было приятно в этот момент от этого. Чуть на небо не взлетел 😄

😅 Еще клево было узнать, что на яхте было одновременно два прОдукта из двух конкурирующих онлайн-школ. Обменялись опытом (Не skillbox 😅)

🥳 Кстати, это уже моя третья нетворкинг сессия. Первая была в Москве. В общем, если вести блог, то не только ради шеринга знаниям, но еще и ради объединения талантов. Надеюсь, вы тоже убеждались на своем опыте, как сильно может забустить вас встреча с нужным человеком.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥87👍24👎4
Савадикап, братцы!

🇹🇭 Пару кадров Биг Будды с неба для вас!

#Thailand
🔥15👎6👍1
Forwarded from Aleron Milenkin
This media is not supported in your browser
VIEW IN TELEGRAM
👍47🔥359👎4
Помню, как год назад проснулся в этот день будто в новой реальности.

#год
53👍12👎7🤔7🔥2🏆2😁1
Мало кто знает про мою прошлую карьеру школьного препа:) Отголоски из 2017-го Яндекса
🔥41😁24👍105👎3
Уже все в курсе про распад банка SVB и обвал USDC стейбкойна.

Не парит, пока не видишь реальные кейсы людей. Вдохновился прям постом парня 😳💪

Кстати, купил на днях пару десятков ton
🔥41😁13👎124🏆2