NEW BOT Телеграм, страница

👉 Ссылка на онлайн-встречу "Путь грандмастера Kaggle"

Залетайте:) Следующая такая возможность будет не скоро

2.56K viewsАлерон Миленькин, edited 13:05

05:25

Увлекся испытательными соревнованиями от MADE 🧐 по рекомендательным системам. Как итог, поступил к ним на программу😳🏆

Если кто еще не слышал, то это продвинутая школа анализа больших данных от Mail.Ru. Как ШАД только более прикладная направленность.

Что меня подкупило - организаторы отбирают по результатам соревнования типо как на Kaggle. 💪

#что_ж_иду_в_MADE
#ШАД_пусть_отдохнет
#OzonMasters_тоже_пушка

2.72K viewsАлерон Миленькин, edited 19:34

👍 22 😐 3 👎 1 💬

🏆 Data Feeling | AIeron

Трюк №11 - нормировка таргета🏔

Давно держал в голове этот трюк, но только недавно он сработал у меня на практике. 😎

Если целевая переменная имеет нестандартное распределение, то простое логарифмирование этой переменной может выровнять распределение в сторону нормального - это немного упростит задачу вашей модели.📈

По итогу точность подрастает, что очень приятно🔝. После предсказания производим обратное преобразование - потенцируем (возводим экспоненту в степень вашей переменной).🤓

Почему работает? Линейным моделям становится проще улавливать нелинейные зависимости 🏋️‍♀️

3.53K viewsАлерон Миленькин, edited 13:23

👍 29 😐 1 👎💬 3

🏆 Data Feeling | AIeron

Поучаствовал в съемке бесплатного курса по DS от Мегафон.

Некоторых экспертов раньше смотрел, а теперь вместе с ними вовлекаю новых чемпиончиков в индустрию 🏆

Не реклама, просто рад запуску и промо-ролики курса интересные🚀 Приложу фрагмент:)

3.18K viewsАлерон Миленькин, edited 16:31

👍 21 😐 1 👎💬 2

🏆 Data Feeling | AIeron

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

❤2

3.41K viewsАлерон Миленькин, 16:32

👍 28 😐👎 1 💬 1

🏆 Data Feeling | AIeron

Только началась в Москве суета с ограничениями - сразу взял билет и улетел DS’ить удаленно в Сочи ✈️

- Температура +20🌡
- Билет 1.5к
- Локдаун не меньше недели.
- Профилактика выгорания

Чем не повод сделать также?) 😅🤔

В личке готов рассказать, где снять комфортную студию в Сочи за 18к/месяц в 350 метрах от моря 🌅 Не реклама, но знайте, что так можно 🤫

Ниже тизер видео - с таким видом работоспособность подлетает до небес.

3.03K viewsАлерон Миленькин, edited 19:47

👍 20 😐👎💬

🏆 Data Feeling | AIeron

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

#мир

3.33K viewsАлерон Миленькин, edited 19:48

👍 28 😐👎💬

🏆 Data Feeling | AIeron

трюк №13 - блендинг 🎳

Вот вам мотивация биться командой☘️. Считаешь, что твой score так себе...? А что покажет блендинг с моделями товарищей? На фото мой реальный кейс с хака🧙‍♂️ Это прям магия 🪄📈😅

Почему работает? Зануляется шумовая составляющая прогноза.

P.S - Развлёкся этой ночью на Open Data Battle, наконец-то дошли руки доработать код с 3-м бустингом - catboost'ом 🐈. Очень порадовал)💪 🔥

#чисто_ради_фана
🎃🎃🎃🎃🎃🎃🎃

3.49K viewsАлерон Миленькин, edited 14:30

👍 24 😐 2 👎 2 💬

🏆 Data Feeling | AIeron

Продолжаю прокачивать твои навыки в Data Science🎡

Трюк №17 - сдвиги (Data shift)🎭

На валидации метрика высокая, а на тесте внезапно сильно ниже? - Это повод проверить ваши данные на сдвиги. На скрине привел простой пример, как можно отловить сдвиг🕸

Что можно сделать?
- Удалить шифт-фичу совсем
- Проверить выбросы
- RobustScaling, StandScaling*
- Вычесть разницу средних
- data[“feature”].shift(12)

* В этом теме много тонкостей. Поэтому просто обращу внимание на один из способов искать шифты с помощью статистических критериев - не зря же вам на мат.статистике про них рассказывали?! Найдя шифт, придумать что с ним делать уже проще.

На своей практике, использовал шифты как дополнительный повод почистить данные. Смотри скрин.

P.S - Да, критерии нужны не только для А/B тестирования!🚦🏭

👍5

3.34K viewsАлерон Миленькин, edited 12:29

👍 23 😐👎💬 5

🏆 Data Feeling | AIeron

Второй день подвожу итоги и расписываю планы на 2025-й год

Скоро поделюсь, а пока рекомендую вам проинвестировать в самих себя. Как можно раньше усилить себя навыком AI программирования. Начать писать код кратно быстрее!

И вот вам для этого наш экспресс

интенсив

и промокод HAPPYNEWYEAR (действует до 31 декабря). Записали со Стасом для вас лучшие связки.

👍 Желаю вам в 2025-м году сэкономить сотни часов на написании однотипного кода самому и больше фокусироваться на творческой части.

Придумывайте, фантазируйте и тестируйте - тогда AI хрен вас заменит!

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

3.41K viewsАлерон Миленькин, edited 11:29

👍 20 😐 1 👎💬

🏆 Data Feeling | AIeron

А ты используешь пайплайны?😎

Или пишешь код отдельно для тренировочных данных и отдельно для тестовых?🙊😱

#ds_memes

2.61K viewsАлерон Миленькин, edited 11:32

👍 7 😐 2 👎 6 💬 5

🏆 Data Feeling | AIeron

🏆 Data Feeling | AIeron pinned a photo

02:45

🏆 Data Feeling | AIeron

Вот рассказываю тут вам про фишки из мира анализа данных, а в жизни сталкиваюсь с вот таким…🤷‍♀️😅

Представляю вашему вниманию сверх-высоко-пропускную систему электронного документооборота 🗃🧨

Врать не стану. Мои документы, потерянные месяц назад, были найдены менее, чем за 10 секунд, под чьей-то чашкой кофе☕️. Очень шустро ⚡️

Сама команда, разработавшая систему, признается, что секрет успеха в Agile техниках и продвинутом использовании Jira, Slask’а и Trello

#CRMотдыхает
#DataEngineering

👍2

2.58K viewsАлерон Миленькин, edited 07:05

👍 23 😐 5 👎💬

🏆 Data Feeling | AIeron

Kaggle штука не простая)😅

Поднялся за ночь на 426 мест вверх, но до медали все равно не долетел)☄️🤪

А не запустить ли мне курс - как НЕ выиграть медаль на Kaggle? 🤔🤔

Решил поделиться - потому что иногда важнее набраться опыта, чем урвать призовые.

PS: Сорева по NLP на языке Хинди - вообще ничего не мог прочитать, чисто на метрики опирался. 🙂
PPS: В паре мест надо мной два индуса Kaggle-мастера🤙

2.27K viewsАлерон Миленькин, edited 19:04

👍 22 😐 1 👎 4 💬 2

🏆 Data Feeling | AIeron

Пофармил на этих выходных хакатон от МКБ. Задача интересная, предсказание факта наступления выплаты по гарантии.

Осталась пара дней до конца, но уже все адекватные идеи перебрал пока дошел до топ-5 из 3-x сотен DS'ов 🤺. Оставлю так, посмотрим, подбросит ли меня шафл на привате повыше. 😄🤟

Кто-то писал, что хак для начинающих, но такого не почувствовал. Пока поднимал скор - пришлось попотеть🧠🧠🧠.

#хочумакбук👨‍💻
#ЛикиНЕиспользовал💦

Интересно чем все закончится?
Накидайте идей в комменты 🤪

2.13K viewsАлерон Миленькин, edited 19:25

👍 25 😐👎💬 8

🏆 Data Feeling | AIeron

Неожиданно много людей написало насчет идей по хаку МКБ. 😳 Что так много людей хотят себе айфон или макбук?😅

Из того что услышал, мало кто вообще пытался дополнительные признаки генерировать 😳😳. Поэтому решил поделится одним успешным кейсом, который на мой взгляд хорошо разделяет данные по таргету. 🧠🚀

Расскажу что это и как я придумал этот признак через пару дней)

#FeatureEngineering на максималках

👍1

2.62K viewsАлерон Миленькин, edited 21:31

👍 21 😐 1 👎💬 3

🏆 Data Feeling | AIeron

За 15 минут до конца выхожу в топ-3

Друзья, это для вас!❤️‍🔥

#МКБ

2.52K viewsАлерон Миленькин, edited 20:45

👍 56 😐👎💬 1

🏆 Data Feeling | AIeron

Братцы, одно скажу!
Цените матерей и максимально стабилизируйте свои решения, чтобы шафлило только вверх ☝️😄

Итог: топ-2 на привате🤟😱

#всемфарту🤞
#МКБ

👍1

2.79K viewsАлерон Миленькин, edited 11:04

👍 69 😐👎💬 6

🏆 Data Feeling | AIeron

Выкладываю своё решение по хакатону от МКБ на топ-2. Забирайте на разбор)🍿🎬

- Потрачено времени - 4 дня (full time)
- Сгенерировано 210 новых признаков🚵
- Только 10 новых признаков дают резкий прирост в точности
- Финальная модель - ансамбль двух катбустов🐈 🐈
- Результат - 2й на привате🏆

Из ощущений о кейсе:
- 70% успеха - это новые признаки / работа с данными
- 20% успеха - это работа с моделью / коддинг
- 10% понимание доменной области / или гугление

Ссылка на GitHub: github.com/a-milenkin/MKB_hack
Отдельными постами расскажу про фишки/трюки, которые сработали.

#two_cats_to_top
#забирай_и_побеждай

🔥3

3.7K viewsАлерон Миленькин, edited 13:48

👍 55 😐👎💬 6

🏆 Data Feeling | AIeron

#Трюк № 35 - стабилизация решений🛹⚖️

Представьте такую ситуацию, вы потратили уйму времени, чтобы занять лидирующую позицию в топе лидерборда. А после оценки вашей модели на приватной выборке - ваш результат уходит в закат 🌅, а точнее слетает на N позиций вниз🛬. Что вы чувствуете? 🤷‍♀️😕🌡

Что ж, сейчас дядя Саша расскажет одну Kaggle'скую фишку, как можно взять шафл под свой контроль и скидывать вниз по лидерборду всех, кто плохо пристегнулся💺.

Сама процедура прозвучит как абсурд, как бессмысленная операция, как бред больного, но метод на моей практике показал себя хорошо. (Пруф эффективности трюка на скрине ниже)

Идея трюка такая:
1 - Берем модель, фиксируем random_state/seed модели, обучаем, сохраняем.
2 - Создаем новую точно такую же модель, фиксируем НОВЫЙ random_state, обучаем, сохраняем.
3 - Делаем так несколько раз .
4 - Далее просто усредняем прогнозы полученных моделей с разными seed'ами. Все🙅‍♂️

Сама точность прогноза обычно не отличается. Она даже может быть больше/меньше, чем без усреднения.
Но преимущество в том, что такой ответ более стабильный по множеству причин. Эту идею часто используют не только в классическом ML, но даже в CV, NLP, GAN'ах.

P.S. - Если ваша модель детерминированная (linear regression), то можно зайти с другой стороны. Берем K-фолдное разбиение и повторяем его несколько раз при разных random_state'ах. Результаты усредняем.

#теперь_фарт_в_твоей_команде

👍5

3.61K viewsАлерон Миленькин, edited 14:06

👍 34 😐 1 👎💬

About

Blog

Apps

Platform