Поучаствовал в съемке бесплатного курса по DS от Мегафон.
Некоторых экспертов раньше смотрел, а теперь вместе с ними вовлекаю новых чемпиончиков в индустрию 🏆
Не реклама, просто рад запуску и промо-ролики курса интересные🚀 Приложу фрагмент:)
Некоторых экспертов раньше смотрел, а теперь вместе с ними вовлекаю новых чемпиончиков в индустрию 🏆
Не реклама, просто рад запуску и промо-ролики курса интересные🚀 Приложу фрагмент:)
Только началась в Москве суета с ограничениями - сразу взял билет и улетел DS’ить удаленно в Сочи ✈️
- Температура +20🌡
- Билет 1.5к
- Локдаун не меньше недели.
- Профилактика выгорания
Чем не повод сделать также?) 😅🤔
В личке готов рассказать, где снять комфортную студию в Сочи за 18к/месяц в 350 метрах от моря 🌅 Не реклама, но знайте, что так можно 🤫
Ниже тизер видео - с таким видом работоспособность подлетает до небес.
- Температура +20🌡
- Билет 1.5к
- Локдаун не меньше недели.
- Профилактика выгорания
Чем не повод сделать также?) 😅🤔
В личке готов рассказать, где снять комфортную студию в Сочи за 18к/месяц в 350 метрах от моря 🌅 Не реклама, но знайте, что так можно 🤫
Ниже тизер видео - с таким видом работоспособность подлетает до небес.
трюк №13 - блендинг 🎳
Вот вам мотивация биться командой☘️. Считаешь, что твой score так себе...? А что покажет блендинг с моделями товарищей? На фото мой реальный кейс с хака🧙♂️ Это прям магия 🪄📈😅
Почему работает? Зануляется шумовая составляющая прогноза.
P.S - Развлёкся этой ночью на Open Data Battle, наконец-то дошли руки доработать код с 3-м бустингом - catboost'ом 🐈. Очень порадовал)💪 🔥
#чисто_ради_фана
🎃🎃🎃🎃🎃🎃🎃
Вот вам мотивация биться командой☘️. Считаешь, что твой score так себе...? А что покажет блендинг с моделями товарищей? На фото мой реальный кейс с хака🧙♂️ Это прям магия 🪄📈😅
Почему работает? Зануляется шумовая составляющая прогноза.
P.S - Развлёкся этой ночью на Open Data Battle, наконец-то дошли руки доработать код с 3-м бустингом - catboost'ом 🐈. Очень порадовал)💪 🔥
#чисто_ради_фана
🎃🎃🎃🎃🎃🎃🎃
Продолжаю прокачивать твои навыки в Data Science🎡
Трюк №17 - сдвиги (Data shift)🎭
На валидации метрика высокая, а на тесте внезапно сильно ниже? - Это повод проверить ваши данные на сдвиги. На скрине привел простой пример, как можно отловить сдвиг🕸
Что можно сделать?
- Удалить шифт-фичу совсем
- Проверить выбросы
- RobustScaling, StandScaling*
- Вычесть разницу средних
- data[“feature”].shift(12)
* В этом теме много тонкостей. Поэтому просто обращу внимание на один из способов искать шифты с помощью статистических критериев - не зря же вам на мат.статистике про них рассказывали?! Найдя шифт, придумать что с ним делать уже проще.
На своей практике, использовал шифты как дополнительный повод почистить данные. Смотри скрин.
P.S - Да, критерии нужны не только для А/B тестирования!🚦🏭
Трюк №17 - сдвиги (Data shift)🎭
На валидации метрика высокая, а на тесте внезапно сильно ниже? - Это повод проверить ваши данные на сдвиги. На скрине привел простой пример, как можно отловить сдвиг🕸
Что можно сделать?
- Удалить шифт-фичу совсем
- Проверить выбросы
- RobustScaling, StandScaling*
- Вычесть разницу средних
- data[“feature”].shift(12)
* В этом теме много тонкостей. Поэтому просто обращу внимание на один из способов искать шифты с помощью статистических критериев - не зря же вам на мат.статистике про них рассказывали?! Найдя шифт, придумать что с ним делать уже проще.
На своей практике, использовал шифты как дополнительный повод почистить данные. Смотри скрин.
P.S - Да, критерии нужны не только для А/B тестирования!🚦🏭
👍5
Второй день подвожу итоги и расписываю планы на 2025-й год
Скоро поделюсь, а пока рекомендую вам проинвестировать в самих себя. Как можно раньше усилить себя навыком AI программирования. Начать писать код кратно быстрее!
И вот вам для этого наш экспресс интенсив и промокод HAPPYNEWYEAR (действует до 31 декабря) . Записали со Стасом для вас лучшие связки.
👍 Желаю вам в 2025-м году сэкономить сотни часов на написании однотипного кода самому и больше фокусироваться на творческой части.
Придумывайте, фантазируйте и тестируйте - тогда AI хрен вас заменит!
Скоро поделюсь, а пока рекомендую вам проинвестировать в самих себя. Как можно раньше усилить себя навыком AI программирования. Начать писать код кратно быстрее!
Придумывайте, фантазируйте и тестируйте - тогда AI хрен вас заменит!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Вот рассказываю тут вам про фишки из мира анализа данных, а в жизни сталкиваюсь с вот таким…🤷♀️😅
Представляю вашему вниманию сверх-высоко-пропускную систему электронного документооборота 🗃🧨
Врать не стану. Мои документы, потерянные месяц назад, были найдены менее, чем за 10 секунд, под чьей-то чашкой кофе☕️. Очень шустро ⚡️
Сама команда, разработавшая систему, признается, что секрет успеха в Agile техниках и продвинутом использовании Jira, Slask’а и Trello
#CRMотдыхает
#DataEngineering
Представляю вашему вниманию сверх-высоко-пропускную систему электронного документооборота 🗃🧨
Врать не стану. Мои документы, потерянные месяц назад, были найдены менее, чем за 10 секунд, под чьей-то чашкой кофе☕️. Очень шустро ⚡️
Сама команда, разработавшая систему, признается, что секрет успеха в Agile техниках и продвинутом использовании Jira, Slask’а и Trello
#CRMотдыхает
#DataEngineering
👍2
Kaggle штука не простая)😅
Поднялся за ночь на 426 мест вверх, но до медали все равно не долетел)☄️🤪
А не запустить ли мне курс - как НЕ выиграть медаль на Kaggle? 🤔🤔
Решил поделиться - потому что иногда важнее набраться опыта, чем урвать призовые.
PS: Сорева по NLP на языке Хинди - вообще ничего не мог прочитать, чисто на метрики опирался. 🙂
PPS: В паре мест надо мной два индуса Kaggle-мастера🤙
Поднялся за ночь на 426 мест вверх, но до медали все равно не долетел)☄️🤪
А не запустить ли мне курс - как НЕ выиграть медаль на Kaggle? 🤔🤔
Решил поделиться - потому что иногда важнее набраться опыта, чем урвать призовые.
PS: Сорева по NLP на языке Хинди - вообще ничего не мог прочитать, чисто на метрики опирался. 🙂
PPS: В паре мест надо мной два индуса Kaggle-мастера🤙
Пофармил на этих выходных хакатон от МКБ. Задача интересная, предсказание факта наступления выплаты по гарантии.
Осталась пара дней до конца, но уже все адекватные идеи перебрал пока дошел до топ-5 из 3-x сотен DS'ов 🤺. Оставлю так, посмотрим, подбросит ли меня шафл на привате повыше. 😄🤟
Кто-то писал, что хак для начинающих, но такого не почувствовал. Пока поднимал скор - пришлось попотеть🧠🧠🧠.
#хочумакбук👨💻
#ЛикиНЕиспользовал💦
Интересно чем все закончится?
Накидайте идей в комменты 🤪
Осталась пара дней до конца, но уже все адекватные идеи перебрал пока дошел до топ-5 из 3-x сотен DS'ов 🤺. Оставлю так, посмотрим, подбросит ли меня шафл на привате повыше. 😄🤟
Кто-то писал, что хак для начинающих, но такого не почувствовал. Пока поднимал скор - пришлось попотеть🧠🧠🧠.
#хочумакбук👨💻
#ЛикиНЕиспользовал💦
Интересно чем все закончится?
Накидайте идей в комменты 🤪
Неожиданно много людей написало насчет идей по хаку МКБ. 😳 Что так много людей хотят себе айфон или макбук?😅
Из того что услышал, мало кто вообще пытался дополнительные признаки генерировать 😳😳. Поэтому решил поделится одним успешным кейсом, который на мой взгляд хорошо разделяет данные по таргету. 🧠🚀
Расскажу что это и как я придумал этот признак через пару дней)
#FeatureEngineering на максималках
Из того что услышал, мало кто вообще пытался дополнительные признаки генерировать 😳😳. Поэтому решил поделится одним успешным кейсом, который на мой взгляд хорошо разделяет данные по таргету. 🧠🚀
Расскажу что это и как я придумал этот признак через пару дней)
#FeatureEngineering на максималках
👍1
Братцы, одно скажу!
Цените матерей и максимально стабилизируйте свои решения, чтобы шафлило только вверх ☝️😄
Итог: топ-2 на привате🤟😱
#всемфарту🤞
#МКБ
Цените матерей и максимально стабилизируйте свои решения, чтобы шафлило только вверх ☝️😄
Итог: топ-2 на привате🤟😱
#всемфарту🤞
#МКБ
👍1
Выкладываю своё решение по хакатону от МКБ на топ-2. Забирайте на разбор)🍿🎬
- Потрачено времени - 4 дня (full time)
- Сгенерировано 210 новых признаков🚵
- Только 10 новых признаков дают резкий прирост в точности
- Финальная модель - ансамбль двух катбустов🐈 🐈
- Результат - 2й на привате🏆
Из ощущений о кейсе:
- 70% успеха - это новые признаки / работа с данными
- 20% успеха - это работа с моделью / коддинг
- 10% понимание доменной области / или гугление
Ссылка на GitHub: github.com/a-milenkin/MKB_hack
Отдельными постами расскажу про фишки/трюки, которые сработали.
#two_cats_to_top
#забирай_и_побеждай
- Потрачено времени - 4 дня (full time)
- Сгенерировано 210 новых признаков🚵
- Только 10 новых признаков дают резкий прирост в точности
- Финальная модель - ансамбль двух катбустов🐈 🐈
- Результат - 2й на привате🏆
Из ощущений о кейсе:
- 70% успеха - это новые признаки / работа с данными
- 20% успеха - это работа с моделью / коддинг
- 10% понимание доменной области / или гугление
Ссылка на GitHub: github.com/a-milenkin/MKB_hack
Отдельными постами расскажу про фишки/трюки, которые сработали.
#two_cats_to_top
#забирай_и_побеждай
🔥3
#Трюк № 35 - стабилизация решений🛹⚖️
Представьте такую ситуацию, вы потратили уйму времени, чтобы занять лидирующую позицию в топе лидерборда. А после оценки вашей модели на приватной выборке - ваш результат уходит в закат 🌅, а точнее слетает на N позиций вниз🛬. Что вы чувствуете? 🤷♀️😕🌡
Что ж, сейчас дядя Саша расскажет одну Kaggle'скую фишку, как можно взять шафл под свой контроль и скидывать вниз по лидерборду всех, кто плохо пристегнулся💺.
Сама процедура прозвучит как абсурд, как бессмысленная операция, как бред больного, но метод на моей практике показал себя хорошо. (Пруф эффективности трюка на скрине ниже)
Идея трюка такая:
1 - Берем модель, фиксируем random_state/seed модели, обучаем, сохраняем.
2 - Создаем новую точно такую же модель, фиксируем НОВЫЙ random_state, обучаем, сохраняем.
3 - Делаем так несколько раз .
4 - Далее просто усредняем прогнозы полученных моделей с разными seed'ами. Все🙅♂️
Сама точность прогноза обычно не отличается. Она даже может быть больше/меньше, чем без усреднения.
Но преимущество в том, что такой ответ более стабильный по множеству причин. Эту идею часто используют не только в классическом ML, но даже в CV, NLP, GAN'ах.
P.S. - Если ваша модель детерминированная (linear regression), то можно зайти с другой стороны. Берем K-фолдное разбиение и повторяем его несколько раз при разных random_state'ах. Результаты усредняем.
#теперь_фарт_в_твоей_команде
Представьте такую ситуацию, вы потратили уйму времени, чтобы занять лидирующую позицию в топе лидерборда. А после оценки вашей модели на приватной выборке - ваш результат уходит в закат 🌅, а точнее слетает на N позиций вниз🛬. Что вы чувствуете? 🤷♀️😕🌡
Что ж, сейчас дядя Саша расскажет одну Kaggle'скую фишку, как можно взять шафл под свой контроль и скидывать вниз по лидерборду всех, кто плохо пристегнулся💺.
Сама процедура прозвучит как абсурд, как бессмысленная операция, как бред больного, но метод на моей практике показал себя хорошо. (Пруф эффективности трюка на скрине ниже)
Идея трюка такая:
1 - Берем модель, фиксируем random_state/seed модели, обучаем, сохраняем.
2 - Создаем новую точно такую же модель, фиксируем НОВЫЙ random_state, обучаем, сохраняем.
3 - Делаем так несколько раз .
4 - Далее просто усредняем прогнозы полученных моделей с разными seed'ами. Все🙅♂️
Сама точность прогноза обычно не отличается. Она даже может быть больше/меньше, чем без усреднения.
Но преимущество в том, что такой ответ более стабильный по множеству причин. Эту идею часто используют не только в классическом ML, но даже в CV, NLP, GAN'ах.
P.S. - Если ваша модель детерминированная (linear regression), то можно зайти с другой стороны. Берем K-фолдное разбиение и повторяем его несколько раз при разных random_state'ах. Результаты усредняем.
#теперь_фарт_в_твоей_команде
👍5
Заметил, что вы активно откликаетесь на реальные примеры побед/успехов. Даже пишите в личку или просто поддерживаете в комментариях. Спасибо.
Мне нравится делиться тем, как можно "хакнуть" какой-нибудь чемпионат по DS/ML. Однако, я рассказываю только про итоги, показываю уже рабочее чистое решение, не раскрывая при этом того, как прихожу к таким результатам. Хотя успеваю проверить море гипотез, при этом 95% из них не выстреливает. Вот это и есть реальный соревновательный анализ данных.
Что ж, настало время поднять ставки, рискнуть и показать этот процесс со старта.
Говорить о будущем успехе глупо и опрометчиво - никогда так не делаю, но именно в этот раз - Я изменю формат.
> Я обещаю выйти минимум в топ-10%🥉в свежем соревновании по NLP на Kaggle: 🔥🔥🔥🔥🔥 www.kaggle.com/c/jigsaw-toxic-severity-rating
Задача: ранжирование текстов по уровню токсичности. Впереди два месяца и сотни способов не выполнить своё обещание.
Эта серия постов будет носить тег: #Aleron_фармит🤹♂️
Как думаете, провалю? 🙂
Мне нравится делиться тем, как можно "хакнуть" какой-нибудь чемпионат по DS/ML. Однако, я рассказываю только про итоги, показываю уже рабочее чистое решение, не раскрывая при этом того, как прихожу к таким результатам. Хотя успеваю проверить море гипотез, при этом 95% из них не выстреливает. Вот это и есть реальный соревновательный анализ данных.
Что ж, настало время поднять ставки, рискнуть и показать этот процесс со старта.
Говорить о будущем успехе глупо и опрометчиво - никогда так не делаю, но именно в этот раз - Я изменю формат.
> Я обещаю выйти минимум в топ-10%🥉в свежем соревновании по NLP на Kaggle: 🔥🔥🔥🔥🔥 www.kaggle.com/c/jigsaw-toxic-severity-rating
Задача: ранжирование текстов по уровню токсичности. Впереди два месяца и сотни способов не выполнить своё обещание.
Эта серия постов будет носить тег: #Aleron_фармит🤹♂️
Как думаете, провалю? 🙂
👍3🔥1
Зачем вам в IT? Почему именно анализ данных?? 🤷♀️ Высокие зарплаты? Возможность удаленки с Бали? 🌴
Мой личный ответ - все ради соревновательной атмосферы анализа данных🏎🏁🏇
Давно мечтал посетить Новосибирск, и вот уже на пару с коллегой прокачиваем новосибирских талантливых школьников в ML. Несколько дней вели практикумы. В финале дали задачку на классификацию картинок с лидербордом. Все в лучших традициях Kaggle💪😉.
Вы бы знали, что делает с человеком желание поднять скор на борде и обойти других😹. Море эмоций и буря идей тут же вырываются на волю😈🔥
Инсайд: не пытайтесь раскачать человека словами, просто разожгите в нем любопытство, а там уже этот поезд не остановить 🚝. Так сложные концепции впрах разбиваются о бетонную стену азарта. 👊
P.S - мой не самый слабый бейзлайн был побит школьниками меньше, чем за час💥😳👏
#Новосибирск -20🌡
Мой личный ответ - все ради соревновательной атмосферы анализа данных🏎🏁🏇
Давно мечтал посетить Новосибирск, и вот уже на пару с коллегой прокачиваем новосибирских талантливых школьников в ML. Несколько дней вели практикумы. В финале дали задачку на классификацию картинок с лидербордом. Все в лучших традициях Kaggle💪😉.
Вы бы знали, что делает с человеком желание поднять скор на борде и обойти других😹. Море эмоций и буря идей тут же вырываются на волю😈🔥
Инсайд: не пытайтесь раскачать человека словами, просто разожгите в нем любопытство, а там уже этот поезд не остановить 🚝. Так сложные концепции впрах разбиваются о бетонную стену азарта. 👊
P.S - мой не самый слабый бейзлайн был побит школьниками меньше, чем за час💥😳👏
#Новосибирск -20🌡
👍2🔥2