Братцы, одно скажу!
Цените матерей и максимально стабилизируйте свои решения, чтобы шафлило только вверх ☝️😄
Итог: топ-2 на привате🤟😱
#всемфарту🤞
#МКБ
Цените матерей и максимально стабилизируйте свои решения, чтобы шафлило только вверх ☝️😄
Итог: топ-2 на привате🤟😱
#всемфарту🤞
#МКБ
👍1
Выкладываю своё решение по хакатону от МКБ на топ-2. Забирайте на разбор)🍿🎬
- Потрачено времени - 4 дня (full time)
- Сгенерировано 210 новых признаков🚵
- Только 10 новых признаков дают резкий прирост в точности
- Финальная модель - ансамбль двух катбустов🐈 🐈
- Результат - 2й на привате🏆
Из ощущений о кейсе:
- 70% успеха - это новые признаки / работа с данными
- 20% успеха - это работа с моделью / коддинг
- 10% понимание доменной области / или гугление
Ссылка на GitHub: github.com/a-milenkin/MKB_hack
Отдельными постами расскажу про фишки/трюки, которые сработали.
#two_cats_to_top
#забирай_и_побеждай
- Потрачено времени - 4 дня (full time)
- Сгенерировано 210 новых признаков🚵
- Только 10 новых признаков дают резкий прирост в точности
- Финальная модель - ансамбль двух катбустов🐈 🐈
- Результат - 2й на привате🏆
Из ощущений о кейсе:
- 70% успеха - это новые признаки / работа с данными
- 20% успеха - это работа с моделью / коддинг
- 10% понимание доменной области / или гугление
Ссылка на GitHub: github.com/a-milenkin/MKB_hack
Отдельными постами расскажу про фишки/трюки, которые сработали.
#two_cats_to_top
#забирай_и_побеждай
🔥3
#Трюк № 35 - стабилизация решений🛹⚖️
Представьте такую ситуацию, вы потратили уйму времени, чтобы занять лидирующую позицию в топе лидерборда. А после оценки вашей модели на приватной выборке - ваш результат уходит в закат 🌅, а точнее слетает на N позиций вниз🛬. Что вы чувствуете? 🤷♀️😕🌡
Что ж, сейчас дядя Саша расскажет одну Kaggle'скую фишку, как можно взять шафл под свой контроль и скидывать вниз по лидерборду всех, кто плохо пристегнулся💺.
Сама процедура прозвучит как абсурд, как бессмысленная операция, как бред больного, но метод на моей практике показал себя хорошо. (Пруф эффективности трюка на скрине ниже)
Идея трюка такая:
1 - Берем модель, фиксируем random_state/seed модели, обучаем, сохраняем.
2 - Создаем новую точно такую же модель, фиксируем НОВЫЙ random_state, обучаем, сохраняем.
3 - Делаем так несколько раз .
4 - Далее просто усредняем прогнозы полученных моделей с разными seed'ами. Все🙅♂️
Сама точность прогноза обычно не отличается. Она даже может быть больше/меньше, чем без усреднения.
Но преимущество в том, что такой ответ более стабильный по множеству причин. Эту идею часто используют не только в классическом ML, но даже в CV, NLP, GAN'ах.
P.S. - Если ваша модель детерминированная (linear regression), то можно зайти с другой стороны. Берем K-фолдное разбиение и повторяем его несколько раз при разных random_state'ах. Результаты усредняем.
#теперь_фарт_в_твоей_команде
Представьте такую ситуацию, вы потратили уйму времени, чтобы занять лидирующую позицию в топе лидерборда. А после оценки вашей модели на приватной выборке - ваш результат уходит в закат 🌅, а точнее слетает на N позиций вниз🛬. Что вы чувствуете? 🤷♀️😕🌡
Что ж, сейчас дядя Саша расскажет одну Kaggle'скую фишку, как можно взять шафл под свой контроль и скидывать вниз по лидерборду всех, кто плохо пристегнулся💺.
Сама процедура прозвучит как абсурд, как бессмысленная операция, как бред больного, но метод на моей практике показал себя хорошо. (Пруф эффективности трюка на скрине ниже)
Идея трюка такая:
1 - Берем модель, фиксируем random_state/seed модели, обучаем, сохраняем.
2 - Создаем новую точно такую же модель, фиксируем НОВЫЙ random_state, обучаем, сохраняем.
3 - Делаем так несколько раз .
4 - Далее просто усредняем прогнозы полученных моделей с разными seed'ами. Все🙅♂️
Сама точность прогноза обычно не отличается. Она даже может быть больше/меньше, чем без усреднения.
Но преимущество в том, что такой ответ более стабильный по множеству причин. Эту идею часто используют не только в классическом ML, но даже в CV, NLP, GAN'ах.
P.S. - Если ваша модель детерминированная (linear regression), то можно зайти с другой стороны. Берем K-фолдное разбиение и повторяем его несколько раз при разных random_state'ах. Результаты усредняем.
#теперь_фарт_в_твоей_команде
👍5
Заметил, что вы активно откликаетесь на реальные примеры побед/успехов. Даже пишите в личку или просто поддерживаете в комментариях. Спасибо.
Мне нравится делиться тем, как можно "хакнуть" какой-нибудь чемпионат по DS/ML. Однако, я рассказываю только про итоги, показываю уже рабочее чистое решение, не раскрывая при этом того, как прихожу к таким результатам. Хотя успеваю проверить море гипотез, при этом 95% из них не выстреливает. Вот это и есть реальный соревновательный анализ данных.
Что ж, настало время поднять ставки, рискнуть и показать этот процесс со старта.
Говорить о будущем успехе глупо и опрометчиво - никогда так не делаю, но именно в этот раз - Я изменю формат.
> Я обещаю выйти минимум в топ-10%🥉в свежем соревновании по NLP на Kaggle: 🔥🔥🔥🔥🔥 www.kaggle.com/c/jigsaw-toxic-severity-rating
Задача: ранжирование текстов по уровню токсичности. Впереди два месяца и сотни способов не выполнить своё обещание.
Эта серия постов будет носить тег: #Aleron_фармит🤹♂️
Как думаете, провалю? 🙂
Мне нравится делиться тем, как можно "хакнуть" какой-нибудь чемпионат по DS/ML. Однако, я рассказываю только про итоги, показываю уже рабочее чистое решение, не раскрывая при этом того, как прихожу к таким результатам. Хотя успеваю проверить море гипотез, при этом 95% из них не выстреливает. Вот это и есть реальный соревновательный анализ данных.
Что ж, настало время поднять ставки, рискнуть и показать этот процесс со старта.
Говорить о будущем успехе глупо и опрометчиво - никогда так не делаю, но именно в этот раз - Я изменю формат.
> Я обещаю выйти минимум в топ-10%🥉в свежем соревновании по NLP на Kaggle: 🔥🔥🔥🔥🔥 www.kaggle.com/c/jigsaw-toxic-severity-rating
Задача: ранжирование текстов по уровню токсичности. Впереди два месяца и сотни способов не выполнить своё обещание.
Эта серия постов будет носить тег: #Aleron_фармит🤹♂️
Как думаете, провалю? 🙂
👍3🔥1
Зачем вам в IT? Почему именно анализ данных?? 🤷♀️ Высокие зарплаты? Возможность удаленки с Бали? 🌴
Мой личный ответ - все ради соревновательной атмосферы анализа данных🏎🏁🏇
Давно мечтал посетить Новосибирск, и вот уже на пару с коллегой прокачиваем новосибирских талантливых школьников в ML. Несколько дней вели практикумы. В финале дали задачку на классификацию картинок с лидербордом. Все в лучших традициях Kaggle💪😉.
Вы бы знали, что делает с человеком желание поднять скор на борде и обойти других😹. Море эмоций и буря идей тут же вырываются на волю😈🔥
Инсайд: не пытайтесь раскачать человека словами, просто разожгите в нем любопытство, а там уже этот поезд не остановить 🚝. Так сложные концепции впрах разбиваются о бетонную стену азарта. 👊
P.S - мой не самый слабый бейзлайн был побит школьниками меньше, чем за час💥😳👏
#Новосибирск -20🌡
Мой личный ответ - все ради соревновательной атмосферы анализа данных🏎🏁🏇
Давно мечтал посетить Новосибирск, и вот уже на пару с коллегой прокачиваем новосибирских талантливых школьников в ML. Несколько дней вели практикумы. В финале дали задачку на классификацию картинок с лидербордом. Все в лучших традициях Kaggle💪😉.
Вы бы знали, что делает с человеком желание поднять скор на борде и обойти других😹. Море эмоций и буря идей тут же вырываются на волю😈🔥
Инсайд: не пытайтесь раскачать человека словами, просто разожгите в нем любопытство, а там уже этот поезд не остановить 🚝. Так сложные концепции впрах разбиваются о бетонную стену азарта. 👊
P.S - мой не самый слабый бейзлайн был побит школьниками меньше, чем за час💥😳👏
#Новосибирск -20🌡
👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Ох, пока был в Новосибирске случайно попал на местное TV😅
А правда, что все ребята из IT любят худи? 🤫
P.S. - Это последний пост про Новосиб, дальше будет про ML)
#бабулясвязаламнесвитшот
А правда, что все ребята из IT любят худи? 🤫
P.S. - Это последний пост про Новосиб, дальше будет про ML)
#бабулясвязаламнесвитшот
👍2❤1
Перед тем как уйти в анализ данных, я увлекался биоинформатикой. И вот если меня спрашивают, что полезного привнес ML в биологию, то всегда привожу в пример алгоритм AlphaFold от DeepMind. Алгоритм, который способен по последовательности аминокислот белка вернуть 3D структуру этого белка.
Оказывается, сегодня будет лекции по разбору алгоритма AlphaFold 2 с точки зрения идей ML инженерии.
Сам пойду и с вами делюсь: t.me/sberloga/182
P.S. - Организуют коллеги из Сберлоги: t.me/sberloga
update: будет про AlphaFold 2!!!
Zoom: https://us02web.zoom.us/j/85490858077?pwd=ZXgzc2xFMHY3NHNieXdTTXZyN1dEUT09
Оказывается, сегодня будет лекции по разбору алгоритма AlphaFold 2 с точки зрения идей ML инженерии.
Сам пойду и с вами делюсь: t.me/sberloga/182
P.S. - Организуют коллеги из Сберлоги: t.me/sberloga
update: будет про AlphaFold 2!!!
Zoom: https://us02web.zoom.us/j/85490858077?pwd=ZXgzc2xFMHY3NHNieXdTTXZyN1dEUT09
🤩1
Что ж, в жизни каждого DS'a рано или поздно наступает момент жениться приобрести видеокарточку.
Т.к в ближайщие два месяца мне предстоит хорошенько так пофармить👨🏻🌾 Kaggle, то решил не мелочиться и сделать себе подарок на новый год🎅🏻и купить железа⚙️. Кенты из DS советуют вот таких всадников апокалипсиса:
- RTX 2080 ti
- RTX 3080 ti
- RTX 3090
Надеюсь, что смогу купить где-нибудь с рук т.к цены кусаются - 100к минимум💸. Если кто-то может посоветовать варианты - пишите в коменты или лс. В теме железа я пока новичок.
#Aleron_фармит
Т.к в ближайщие два месяца мне предстоит хорошенько так пофармить👨🏻🌾 Kaggle, то решил не мелочиться и сделать себе подарок на новый год🎅🏻и купить железа⚙️. Кенты из DS советуют вот таких всадников апокалипсиса:
- RTX 2080 ti
- RTX 3080 ti
- RTX 3090
Надеюсь, что смогу купить где-нибудь с рук т.к цены кусаются - 100к минимум💸. Если кто-то может посоветовать варианты - пишите в коменты или лс. В теме железа я пока новичок.
#Aleron_фармит
🔥1
Начинаю подводить итоги года🥂👨🏻🌾
Так вышло, что этот год, сам того не замечая, я "обильно" преподавал, поэтому ожидаемым шоком для меня стала следующая статистика. За 2021-й год я успел провести:
- 41 вебинар в Otus по ML
- 33 вебинара по статистике в Нетологии
- 15 семинаров в МФТИ по анализу данных
- 16 вебинаров разной тематики в DLS, Мегафон, Сбер, РШП
- Записать курс по АБ - тестированию в SkillBox
- Вывести в свет 11 топиков в курсе по Flask в Jet Brains.
- "Зачать" курс по соревновательному DS с Proglib
Итого: Около 118 вебинаров/семинаров/лекций за год!!!😳
Считай, что раз в три дня надо было сесть и прокачать кого-нибудь в DS. Мой самый отточенный навык за этот год - могу объяснить, что такое p-value даже детям.Да что там дети, моя бабуля уже даже бустинги тюнит.
Преподавание - преподаванием, но учиться тоже надо, поэтому, в свою очередь, успел пройти:
- 5 курсов в школе MADE
- 4 курса на Coursera
- 4 курса на Stepik
Было бы время, прошел бы больше🙈
#НеРеклама
#OnlineКурсыТопчик
#Прокачиваю
Так вышло, что этот год, сам того не замечая, я "обильно" преподавал, поэтому ожидаемым шоком для меня стала следующая статистика. За 2021-й год я успел провести:
- 41 вебинар в Otus по ML
- 33 вебинара по статистике в Нетологии
- 15 семинаров в МФТИ по анализу данных
- 16 вебинаров разной тематики в DLS, Мегафон, Сбер, РШП
- Записать курс по АБ - тестированию в SkillBox
- Вывести в свет 11 топиков в курсе по Flask в Jet Brains.
- "Зачать" курс по соревновательному DS с Proglib
Итого: Около 118 вебинаров/семинаров/лекций за год!!!😳
Считай, что раз в три дня надо было сесть и прокачать кого-нибудь в DS. Мой самый отточенный навык за этот год - могу объяснить, что такое p-value даже детям.
- 5 курсов в школе MADE
- 4 курса на Coursera
- 4 курса на Stepik
Было бы время, прошел бы больше🙈
#НеРеклама
#OnlineКурсыТопчик
#Прокачиваю
👍4
Говорят, новый год не начнется, пока не составишь планы!🎅🏻
Выделил несколько пунктов на этот год, связанные с DS, погнали! За этот год в моих планах:
- Отвоевать официальный титул Kaggle мастера🤹♂️🏵
- Запустить вебинары совместно с Deep Learning School👨🎨
- Довести 3-х людей до медалек на Kaggle🥇🧞♂️
- Прижиться и по возможности стать лидом в X5 👷♂️🚀
- Выпустить авторский интенсив по DS🎯
- Опубликовать уже наконец-то научную статью🤪
Год будет богат на хакатоны и чемпионаты. Буду фармить и делиться всеми трюками на максималках. Следите!
Всех с наступающим, чемпионы!
Выделил несколько пунктов на этот год, связанные с DS, погнали! За этот год в моих планах:
- Отвоевать официальный титул Kaggle мастера🤹♂️🏵
- Запустить вебинары совместно с Deep Learning School👨🎨
- Довести 3-х людей до медалек на Kaggle🥇🧞♂️
- Прижиться и по возможности стать лидом в X5 👷♂️🚀
- Выпустить авторский интенсив по DS🎯
- Опубликовать уже наконец-то научную статью🤪
Год будет богат на хакатоны и чемпионаты. Буду фармить и делиться всеми трюками на максималках. Следите!
Всех с наступающим, чемпионы!
🎉6
Не стоит звать меня в команду, если вы не заряженны, как этот парниша 👆🤠🤪
С наступившим!🥳
Понеслась!🏇🎉
#мотивация
#побеждают_только_безумцы
#СберМаркет
С наступившим!🥳
Понеслась!🏇🎉
#мотивация
#побеждают_только_безумцы
#СберМаркет
👍4
Пару недель назад обещнулся урвать бронзу по ранжированию текстов на Kaggle. Уже начал тюнить ансамбль BERT’тов, но это не мешает участвовать параллельно еще где-то.
Сейчас ворвались в специфичную сореву по рекомендашкам от Сбера на🍋💰Думал, в начале январских с гордостью сделаю пост, как с кентами вошли топ-5, но пока держим топ-8. Осталось еще 5 дней. Долбим баги дальше. 🪲⛏
Надеюсь на топ-3, ибо тиммейты заряженные до бешенства💪Раньше таких не встречал😳. Скоро расскажу, как собирать команду, чтобы брать любые вершины.
А еще рад новому апдейту телеги. Теперь можно оставлять реакции. Пробуйте 😉
#Aleron_фармит
Сейчас ворвались в специфичную сореву по рекомендашкам от Сбера на🍋💰Думал, в начале январских с гордостью сделаю пост, как с кентами вошли топ-5, но пока держим топ-8. Осталось еще 5 дней. Долбим баги дальше. 🪲⛏
Надеюсь на топ-3, ибо тиммейты заряженные до бешенства💪Раньше таких не встречал😳. Скоро расскажу, как собирать команду, чтобы брать любые вершины.
А еще рад новому апдейту телеги. Теперь можно оставлять реакции. Пробуйте 😉
#Aleron_фармит
🔥53👍23🤩4👎3😢1
Так, банда, делюсь новостями. Все по порядку:
1) Моя статья на Хабре, написанная утром за час, вошла в топ лучших за сутки. 🏆🏆🏆
2) СберМаркет переполнился техническими багами и продлил дедлайн. Теперь есть еще неделя, чтоб урвать призовые🕹. Тем временем, мы уже ближе к топу🤫. Сейчас топ-6, полет нормальный😤
3) Прошел мой первый боевой день в X5 Group. Атмосфера превзошла все мои ожидания. Очень нравится🔝
4) Помните, я искал видео-карточку, чтобы фармить? 🏎Теперь у меня есть карточка) Причем проблему я решил гениально. Даже платить не пришлось. Как решил, расскажу в конце месяца.
1) Моя статья на Хабре, написанная утром за час, вошла в топ лучших за сутки. 🏆🏆🏆
2) СберМаркет переполнился техническими багами и продлил дедлайн. Теперь есть еще неделя, чтоб урвать призовые🕹. Тем временем, мы уже ближе к топу🤫. Сейчас топ-6, полет нормальный😤
3) Прошел мой первый боевой день в X5 Group. Атмосфера превзошла все мои ожидания. Очень нравится🔝
4) Помните, я искал видео-карточку, чтобы фармить? 🏎Теперь у меня есть карточка) Причем проблему я решил гениально. Даже платить не пришлось. Как решил, расскажу в конце месяца.
🔥21👍13🎉2
Для меня вчера было шоком узнать, сколько в моём окружении парней из DS, кто пришел в индустрию после 30 лет. 💪🔥
"Вошли в Data Science после 30-ти и не вышли" - Именно так я назову следующую статью с коротким интервью от этих ребят.
Парни реально крутые. Есть джуны, есть даже лиды, а кто-то просто крушит хакатончики один за другим. Над форматом еще подумаю, но выпуск точно выйдет вдохновляющим.🤔
А ты уже вошел в DS?)
"Вошли в Data Science после 30-ти и не вышли" - Именно так я назову следующую статью с коротким интервью от этих ребят.
Парни реально крутые. Есть джуны, есть даже лиды, а кто-то просто крушит хакатончики один за другим. Над форматом еще подумаю, но выпуск точно выйдет вдохновляющим.🤔
А ты уже вошел в DS?)
👍56🔥6❤5🎉3
Что ж, посмеялись, теперь снова ныряем в тематику.
#Трюк №54 Feature Engineering
Именно эта техника превращает Data Sсience в искусство. Почему? Простой пример. Вот все любят хакатоны по табличкам, потому что они простые - "воткнул бустинг", и, если ты угадал с гиперпараметрами, ты в топе🏆. Однако, если ты мало знаешь про генерацию новых признаков, то твои оппоненты не дадут тебе так просто урвать призовые. 🙅♂️ Я проверял😕
Чтоб с успехом рамсИть синдусами лидерами на Kaggle за звание чемпиона, придется освоить эту технику 🧠
Так просто этому научить не смогу, но вот вам пример из моего опыта - классификация временных рядов. Выражу весь смысл техники одной фразой - новые признаки должны как можно более однозначно разделять объекты. Все.
В остальном - порефлексируйте над картинкой к посту или чекайте мою статейку по увеличению точности моделей.
#Трюк №54 Feature Engineering
Именно эта техника превращает Data Sсience в искусство. Почему? Простой пример. Вот все любят хакатоны по табличкам, потому что они простые - "воткнул бустинг", и, если ты угадал с гиперпараметрами, ты в топе🏆. Однако, если ты мало знаешь про генерацию новых признаков, то твои оппоненты не дадут тебе так просто урвать призовые. 🙅♂️ Я проверял😕
Чтоб с успехом рамсИть с
Так просто этому научить не смогу, но вот вам пример из моего опыта - классификация временных рядов. Выражу весь смысл техники одной фразой - новые признаки должны как можно более однозначно разделять объекты. Все.
В остальном - порефлексируйте над картинкой к посту или чекайте мою статейку по увеличению точности моделей.
👍28🔥5
🍋🙅♂️Упустили лям 😅
📈Скор подняли, но место уронили - топ-7 из 70 участников.
🤔Раньше почти никогда не участвовал в задачах на рекомендательные системы, но за этот хакатон успел отработать пайплайн😎. В следующие разы буду громить уже не с нуля. 🏹
🙈🙊Оказаться в топ-7 не так обидно, как ребятам на топ-2. Ведь призовые Сбер давал только за топ-1. Либо все, либо ничего 👌
✅Пока разбирался в рекомендашках, узнал столько полезных технических тонкостей в Pandas, LightFM и в целом в Python, что ни капли не пожалел, что сыграл. Такой опыт редко приобретёшь на работе. Будет теперь, о чем вам рассказать
Тима решает🎯
@MaxYaz вывел в топ-10
@Alexcei64 вывел в топ-5
@Aleron75 не вывел в топ-1
P.S. - отдельная сложность была - преодолеть баги платформы. Времени уходило изрядно🤷♀️🤦♀️🤹♂️
📈Скор подняли, но место уронили - топ-7 из 70 участников.
🤔Раньше почти никогда не участвовал в задачах на рекомендательные системы, но за этот хакатон успел отработать пайплайн😎. В следующие разы буду громить уже не с нуля. 🏹
🙈🙊Оказаться в топ-7 не так обидно, как ребятам на топ-2. Ведь призовые Сбер давал только за топ-1. Либо все, либо ничего 👌
✅Пока разбирался в рекомендашках, узнал столько полезных технических тонкостей в Pandas, LightFM и в целом в Python, что ни капли не пожалел, что сыграл. Такой опыт редко приобретёшь на работе. Будет теперь, о чем вам рассказать
Тима решает🎯
@MaxYaz вывел в топ-10
@Alexcei64 вывел в топ-5
@Aleron75 не вывел в топ-1
P.S. - отдельная сложность была - преодолеть баги платформы. Времени уходило изрядно🤷♀️🤦♀️🤹♂️
🔥33👍11
Можно ли свое хобби соревноваться на чемпионатах превратить в работу? Что?
😎Представьте, Вы на full time фармите Kaggle, вырываетесь в медали, скидываете оппонентов вниз по лидерборду. Жизнь прекрасна. А спустя месяц вам еще и зарплата за это прилетает. А в случае успеха еще и призовые🥳
😳Оказывается, такое есть. Узнал, что есть такая профессия - Kaggle фармить. И не только Kaggle, но любые другие открытые чемпионаты. Где-то даже был успешный кейс от Philips по соревнованию на ускорение MRT с помощью DL, но не нашел сходу ссылки на выступление этих ребят. В целом, примеры можно найти даже на Физтехе, где студенты участвую в чемпионатах, представляя свои лабораториираскидывают индусов налево и направо за стипу.
🤔Закралась мысль, может, раскачать такую практику в России посильнее?!
🧞♂️За какую адекватную зп ты бы фармил на фул тайм? И в скольких чемпионатах смог бы участвовать одновременно?
😎Представьте, Вы на full time фармите Kaggle, вырываетесь в медали, скидываете оппонентов вниз по лидерборду. Жизнь прекрасна. А спустя месяц вам еще и зарплата за это прилетает. А в случае успеха еще и призовые🥳
😳Оказывается, такое есть. Узнал, что есть такая профессия - Kaggle фармить. И не только Kaggle, но любые другие открытые чемпионаты. Где-то даже был успешный кейс от Philips по соревнованию на ускорение MRT с помощью DL, но не нашел сходу ссылки на выступление этих ребят. В целом, примеры можно найти даже на Физтехе, где студенты участвую в чемпионатах, представляя свои лаборатории
🤔Закралась мысль, может, раскачать такую практику в России посильнее?!
🧞♂️За какую адекватную зп ты бы фармил на фул тайм? И в скольких чемпионатах смог бы участвовать одновременно?
👍15🔥5