🏆 Data Feeling | AI – Telegram
🏆 Data Feeling | AI
15.9K subscribers
732 photos
222 videos
6 files
470 links
IT предприниматель и препод 🧑‍🏫
ex-ML лидер в Dodo Brands 🦤🍕
Прокачиваю людей в Data Science 🚀
Победитель Stepik Awards 🏆
Kaggle Expert 🤹‍♀️
Создатель @Speakadora_bot @big_llm_course

РКН https://clik.now/datafeeling
Алерон @Ale_v2
Download Telegram
Channel created
Channel photo updated
Всем привет!

Решил запустить свой канал. Буду рассказывать здесь про свой опыт в Data Science и лайфхаки
Когда начинаешь погружаться в DS - начинаешь работать с новым методом/алгоритмом, полезно иметь под рукой простые примеры кода с его использованием.

Ловите! Это блок индуса, который собрал простейшие примеры различных методов в одну кучу с кодом: https://thecleverprogrammer.com/2020/11/27/machine-learning-algorithms-with-python/

Про PyCaret и Auto-Sklearn сам впервые услышал 🤔
👍4
Channel name was changed to «Data Feeling Rus»
Speed up'ал, speed up'аю и буду speed up'ать свои сеточки на pytorch чтобы быстрее громить соперников на Kaggle.

Мир переворачивается, когда находишь для себя неочевидные, но простые пути решения проблем. Недавно задумался, насколько сильно можно ускорить тренировку сеточки и наткнулся на чек-лист путей ускорения.

https://www.reddit.com/r/MachineLearning/comments/kvs1ex/d_here_are_17_ways_of_making_pytorch_training/

"Automatic Mixed Precision" и "gradient clipping" были для меня в новинку. 😱 Дополнительно рекомендую еще познать технику "16-bit precision" ну и проверить возможность увеличения магического параметра - числа workes в Dataloader. 😎

Как итог, ускорил сетку в 6-7 раз, убрав лишние переносы с gpu на cpu🤠
👍2
За этот месяц раз 5 услышал слово "экстраполяция" в контексте методов машинного обучения, в итоге решил наконец-то почитать, что же это все несет в себе.🧞‍♂️ Да, конечно, я слышал и активно использовал feature importance, и даже SHAP, а какое-то время назад еще и LIME😎. Однако вот почитать и разобраться поглубже в этих все штуках и не только захотелось только сейчас.🧐 Собственно, рекомендую и Вам почитать вот эту статейку на стыке философии и ML👉 https://www.machinelearningmastery.ru/explainable-artificial-intelligence-part-2-model-interpretation-strategies-75d4afa6b739/
👍3
Думаю, стоит ли написать историю - Как я НЕ выиграл хакатон на Kaggle.😅 Не хватило 0.001 до 🥉 Смотри скрин)

Пишите в комментарии, если интересно как я потратил почти месяц пока фармил "CommonLit Readability Prize" и что в итоге приблизило меня к топ-10% 🏆😎


Если интересна сама задача, то надо было по текстам определять их сложность/читабельность.📖📝
👍3
Шафл, господа!!! 🔀

Что ж, теперь время писать историю - «как я выиграл свою первую медаль на Kaggle»🥉🥳😱

На 100 позиций вверх за ночь! 🚀Это чума 🤪
👍7
Саш, как подготовиться к собеседованию по Data Science? ⚔️ Где взять вопросы? Что читать? Можешь меня поспрашивать? 🤼‍♀️

Обычно всем кентам кидаю вот этот набор вопросов github.com/a-milenkin/testovoe 🗂 тут под 500 вопросов, не меньше. Прям не соскучишься. Сам перед собеседованиями гонял себя по нему 🏋️‍♀️ Это то что вам надо) 🎯

И хватит уже теряться при вопросе - что такое линейная регрессия📈


#собеседование #вопросы #до_мидла_за_ночь
#Трюк №16 - фильтрация 🪣

Вы же тоже часто смотрите на важность признаков в вашей модели? Иначе как понять, на что обращает внимание ваша модель?!

И вот вы смотрите на гистограмму важности признаков, и что дальше?) Что с этим делать?) Ничего?


Вот вам трюк🏂 - заранее генерируем случайный признак и далее смело выбрасываем все признаки, которые рандомный признак отсек. Взлет скора модели гарантирован✈️


Почему это работает? Если случайный признак оказался важнее имеющихся, то скорее всего в них нет никакой полезной информации - разумнее их убрать из модели.
👍11
#Трюк № 21 - Псевдолэйблы🤥

Если вам хочется докинуть в модель данных, чтоб поднять скор, то возьмите эти данные из теста.🤪
Звучит безумно, скажите вы, ведь там нет ответов - и будите правы! Однако Kaggle-волков это не останавливает.


Все просто. Обучаем модель на тренировочной выборке (train).
Размечаем тестовую выборку, которая предложена вам для отправки на лидер борд. (Теперь в тесте есть ответы).
Переобучаем модель на тренировочной + свеже-размеченном тестовой выборках.

Снова делаем предсказание на тестовой выборке и засылаем наш сабмит. 🎯

На моей практике, при хорошей модели и соотношении train:test примерно 3:1 это часто дает прирост точности.📈

Почему работает? У вашей модели больше данных, что дает ей чуть лучше выучиться. Да, в разметке будут ошибки, но будет и большинство правильных ответов. Последнее все компенсирует.⚔️
1
Друзья,
Уже сегодня в 16:00 по Мск
👉 онлайн-встреча с грандмастером Kaggle.🏆🔥🚀

Спикер:
👉 Захар Чикишев,
- Выпускник МФТИ-04
- Большой опыт работы в Data Science

На встрече вы сможете задать любой вопрос Захару, а так же узнать о:
– опыте участия в Kaggle соревнованиях
– с чего начать новичку сейчас🤓

Лекция будет интересна тем, кто:
– интересуется Data Science
– планирует принять участие в одном из соревнований

👉Ссылка на zoom будет выложена чуть позже тут
👉 Ссылка на онлайн-встречу "Путь грандмастера Kaggle"


Залетайте:) Следующая такая возможность будет не скоро
Увлекся испытательными соревнованиями от MADE 🧐 по рекомендательным системам. Как итог, поступил к ним на программу😳🏆

Если кто еще не слышал, то это продвинутая школа анализа больших данных от Mail.Ru. Как ШАД только более прикладная направленность.

Что меня подкупило - организаторы отбирают по результатам соревнования типо как на Kaggle. 💪

#что_ж_иду_в_MADE
#ШАД_пусть_отдохнет
#OzonMasters_тоже_пушка
Трюк №11 - нормировка таргета🏔

Давно держал в голове этот трюк, но только недавно он сработал у меня на практике. 😎

Если целевая переменная имеет нестандартное распределение, то простое логарифмирование этой переменной может выровнять распределение в сторону нормального - это немного упростит задачу вашей модели.📈

По итогу точность подрастает, что очень приятно🔝. После предсказания производим обратное преобразование - потенцируем (возводим экспоненту в степень вашей переменной).🤓

Почему работает? Линейным моделям становится проще улавливать нелинейные зависимости 🏋️‍♀️