NEW BOT Телеграм, страница

🏆 Data Feeling | AIeron

#лайфхаки
Поймал себя на периодическом подглядывании в эту статью.

Очень крутые штуки, которые упрощают работу с табличными датасетами в Jupyter Notebook #EDА.

№ 3 Jupyter DataTables и № 6 livelossplot - одни из моих любимых. Обязательно попробуйте!

https://habr.com/ru/company/skillfactory/blog/542870/?utm_source=facebook.com_flows&utm_medium=social&utm_campaign=%5Bperevod%5D-10-poleznyh-rasshireniy-dlya-dat

Хабр

10 полезных расширений для дата-сайентистов

Каждый специалист по Data Science тратит большую часть своего времени на визуализацию данных, их предварительную обработку и настройку модели на основе полученных результатов. Для каждого...

👍3

2.16K viewsedited 20:33

🏆 Data Feeling | AIeron

Channel name was changed to «Data Feeling Rus»

21:15

🏆 Data Feeling | AIeron

Speed up'ал, speed up'аю и буду speed up'ать свои сеточки на pytorch чтобы быстрее громить соперников на Kaggle.

Мир переворачивается, когда находишь для себя неочевидные, но простые пути решения проблем. Недавно задумался, насколько сильно можно ускорить тренировку сеточки и наткнулся на чек-лист путей ускорения.

https://www.reddit.com/r/MachineLearning/comments/kvs1ex/d_here_are_17_ways_of_making_pytorch_training/

"Automatic Mixed Precision" и "gradient clipping" были для меня в новинку. 😱 Дополнительно рекомендую еще познать технику "16-bit precision" ну и проверить возможность увеличения магического параметра - числа workes в Dataloader. 😎

Как итог, ускорил сетку в 6-7 раз, убрав лишние переносы с gpu на cpu🤠

From the MachineLearning community on Reddit: [D] Here are 17 ways of making PyTorch training faster – what did I miss?

Explore this post and more from the MachineLearning community

👍2

2.35K viewsedited 14:18

🏆 Data Feeling | AIeron

За этот месяц раз 5 услышал слово "экстраполяция" в контексте методов машинного обучения, в итоге решил наконец-то почитать, что же это все несет в себе.🧞‍♂️ Да, конечно, я слышал и активно использовал feature importance, и даже SHAP, а какое-то время назад еще и LIME😎. Однако вот почитать и разобраться поглубже в этих все штуках и не только захотелось только сейчас.🧐 Собственно, рекомендую и Вам почитать вот эту статейку на стыке философии и ML👉 https://www.machinelearningmastery.ru/explainable-artificial-intelligence-part-2-model-interpretation-strategies-75d4afa6b739/

machinelearningmastery.ru

Модельные стратегии интерпретации

👍3

2.55K viewsedited 20:44

🏆 Data Feeling | AIeron

Думаю, стоит ли написать историю - Как я НЕ выиграл хакатон на Kaggle.😅 Не хватило 0.001 до 🥉 Смотри скрин)

Пишите в комментарии, если интересно как я потратил почти месяц пока фармил "CommonLit Readability Prize" и что в итоге приблизило меня к топ-10% 🏆😎

Если интересна сама задача, то надо было по текстам определять их сложность/читабельность.📖📝

👍3

2.75K viewsАлерон Миленькин, edited 18:41

🏆 Data Feeling | AIeron

Шафл, господа!!! 🔀

Что ж, теперь время писать историю - «как я выиграл свою первую медаль на Kaggle»🥉🥳😱

На 100 позиций вверх за ночь! 🚀Это чума 🤪

👍7

2.93K viewsАлерон Миленькин, edited 04:39

🏆 Data Feeling | AIeron

Саш, как подготовиться к собеседованию по Data Science? ⚔️ Где взять вопросы? Что читать? Можешь меня поспрашивать? 🤼‍♀️

Обычно всем кентам кидаю вот этот набор вопросов github.com/a-milenkin/testovoe 🗂 тут под 500 вопросов, не меньше. Прям не соскучишься. Сам перед собеседованиями гонял себя по нему 🏋️‍♀️ Это то что вам надо) 🎯

И хватит уже теряться при вопросе - что такое линейная регрессия📈

#собеседование #вопросы #до_мидла_за_ночь

GitHub

GitHub - a-milenkin/testovoe: Home assignments for data science positions

Home assignments for data science positions. Contribute to a-milenkin/testovoe development by creating an account on GitHub.

3.98K viewsАлерон Миленькин, edited 16:54

🏆 Data Feeling | AIeron

#Трюк №16 - фильтрация 🪣

Вы же тоже часто смотрите на важность признаков в вашей модели? Иначе как понять, на что обращает внимание ваша модель?!

И вот вы смотрите на гистограмму важности признаков, и что дальше?) Что с этим делать?) Ничего?

Вот вам трюк🏂 - заранее генерируем случайный признак и далее смело выбрасываем все признаки, которые рандомный признак отсек. Взлет скора модели гарантирован✈️

Почему это работает? Если случайный признак оказался важнее имеющихся, то скорее всего в них нет никакой полезной информации - разумнее их убрать из модели.

👍11

3.09K viewsАлерон Миленькин, edited 08:54

🏆 Data Feeling | AIeron

#Трюк № 21 - Псевдолэйблы🤥

Если вам хочется докинуть в модель данных, чтоб поднять скор, то возьмите эти данные из теста.🤪
Звучит безумно, скажите вы, ведь там нет ответов - и будите правы! Однако Kaggle-волков это не останавливает.

Все просто. Обучаем модель на тренировочной выборке (train).
Размечаем тестовую выборку, которая предложена вам для отправки на лидер борд. (Теперь в тесте есть ответы).
Переобучаем модель на тренировочной + свеже-размеченном тестовой выборках.

Снова делаем предсказание на тестовой выборке и засылаем наш сабмит. 🎯

На моей практике, при хорошей модели и соотношении train:test примерно 3:1 это часто дает прирост точности.📈

Почему работает? У вашей модели больше данных, что дает ей чуть лучше выучиться. Да, в разметке будут ошибки, но будет и большинство правильных ответов. Последнее все компенсирует.⚔️

❤1

2.74K viewsАлерон Миленькин, edited 18:52

👍 19 😐 2 👎 6 💬 1

🏆 Data Feeling | AIeron

🏆 Data Feeling | AIeron pinned a photo

18:58

🏆 Data Feeling | AIeron

Друзья,
Уже сегодня в 16:00 по Мск
👉 онлайн-встреча с грандмастером Kaggle.🏆🔥🚀

Спикер:
👉 Захар Чикишев,
- Выпускник МФТИ-04
- Большой опыт работы в Data Science

На встрече вы сможете задать любой вопрос Захару, а так же узнать о:
– опыте участия в Kaggle соревнованиях
– с чего начать новичку сейчас🤓

Лекция будет интересна тем, кто:
– интересуется Data Science
– планирует принять участие в одном из соревнований

👉Ссылка на zoom будет выложена чуть позже тут

2.58K viewsАлерон Миленькин, edited 10:36

👍 10 😐👎💬

🏆 Data Feeling | AIeron

👉 Ссылка на онлайн-встречу "Путь грандмастера Kaggle"

Залетайте:) Следующая такая возможность будет не скоро

2.56K viewsАлерон Миленькин, edited 13:05

👍 4 😐 1 👎💬

🏆 Data Feeling | AIeron

🏆 Data Feeling | AIeron pinned a photo

05:25

🏆 Data Feeling | AIeron

Увлекся испытательными соревнованиями от MADE 🧐 по рекомендательным системам. Как итог, поступил к ним на программу😳🏆

Если кто еще не слышал, то это продвинутая школа анализа больших данных от Mail.Ru. Как ШАД только более прикладная направленность.

Что меня подкупило - организаторы отбирают по результатам соревнования типо как на Kaggle. 💪

#что_ж_иду_в_MADE
#ШАД_пусть_отдохнет
#OzonMasters_тоже_пушка

2.72K viewsАлерон Миленькин, edited 19:34

👍 22 😐 3 👎 1 💬

🏆 Data Feeling | AIeron

Трюк №11 - нормировка таргета🏔

Давно держал в голове этот трюк, но только недавно он сработал у меня на практике. 😎

Если целевая переменная имеет нестандартное распределение, то простое логарифмирование этой переменной может выровнять распределение в сторону нормального - это немного упростит задачу вашей модели.📈

По итогу точность подрастает, что очень приятно🔝. После предсказания производим обратное преобразование - потенцируем (возводим экспоненту в степень вашей переменной).🤓

Почему работает? Линейным моделям становится проще улавливать нелинейные зависимости 🏋️‍♀️

3.53K viewsАлерон Миленькин, edited 13:23

👍 29 😐 1 👎💬 3

🏆 Data Feeling | AIeron

Поучаствовал в съемке бесплатного курса по DS от Мегафон.

Некоторых экспертов раньше смотрел, а теперь вместе с ними вовлекаю новых чемпиончиков в индустрию 🏆

Не реклама, просто рад запуску и промо-ролики курса интересные🚀 Приложу фрагмент:)

3.18K viewsАлерон Миленькин, edited 16:31

👍 21 😐 1 👎💬 2

🏆 Data Feeling | AIeron

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

❤2

3.41K viewsАлерон Миленькин, 16:32

👍 28 😐👎 1 💬 1

🏆 Data Feeling | AIeron

Только началась в Москве суета с ограничениями - сразу взял билет и улетел DS’ить удаленно в Сочи ✈️

- Температура +20🌡
- Билет 1.5к
- Локдаун не меньше недели.
- Профилактика выгорания

Чем не повод сделать также?) 😅🤔

В личке готов рассказать, где снять комфортную студию в Сочи за 18к/месяц в 350 метрах от моря 🌅 Не реклама, но знайте, что так можно 🤫

Ниже тизер видео - с таким видом работоспособность подлетает до небес.

3.03K viewsАлерон Миленькин, edited 19:47

👍 20 😐👎💬

🏆 Data Feeling | AIeron

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

#мир

3.33K viewsАлерон Миленькин, edited 19:48

👍 28 😐👎💬

🏆 Data Feeling | AIeron

трюк №13 - блендинг 🎳

Вот вам мотивация биться командой☘️. Считаешь, что твой score так себе...? А что покажет блендинг с моделями товарищей? На фото мой реальный кейс с хака🧙‍♂️ Это прям магия 🪄📈😅

Почему работает? Зануляется шумовая составляющая прогноза.

P.S - Развлёкся этой ночью на Open Data Battle, наконец-то дошли руки доработать код с 3-м бустингом - catboost'ом 🐈. Очень порадовал)💪 🔥

#чисто_ради_фана
🎃🎃🎃🎃🎃🎃🎃

3.49K viewsАлерон Миленькин, edited 14:30

👍 24 😐 2 👎 2 💬

🏆 Data Feeling | AIeron

Продолжаю прокачивать твои навыки в Data Science🎡

Трюк №17 - сдвиги (Data shift)🎭

На валидации метрика высокая, а на тесте внезапно сильно ниже? - Это повод проверить ваши данные на сдвиги. На скрине привел простой пример, как можно отловить сдвиг🕸

Что можно сделать?
- Удалить шифт-фичу совсем
- Проверить выбросы
- RobustScaling, StandScaling*
- Вычесть разницу средних
- data[“feature”].shift(12)

* В этом теме много тонкостей. Поэтому просто обращу внимание на один из способов искать шифты с помощью статистических критериев - не зря же вам на мат.статистике про них рассказывали?! Найдя шифт, придумать что с ним делать уже проще.

На своей практике, использовал шифты как дополнительный повод почистить данные. Смотри скрин.

P.S - Да, критерии нужны не только для А/B тестирования!🚦🏭

👍5

3.34K viewsАлерон Миленькин, edited 12:29

👍 23 😐👎💬 5

About

Blog

Apps

Platform