🏆 Data Feeling | AI – Telegram
🏆 Data Feeling | AI
15.9K subscribers
732 photos
222 videos
6 files
469 links
IT предприниматель и препод 🧑‍🏫
ex-ML лидер в Dodo Brands 🦤🍕
Прокачиваю людей в Data Science 🚀
Победитель Stepik Awards 🏆
Kaggle Expert 🤹‍♀️
Создатель @Speakadora_bot @big_llm_course

РКН https://clik.now/datafeeling
Алерон @Ale_v2
Download Telegram
Kaggle штука не простая)😅

Поднялся за ночь на 426 мест вверх, но до медали все равно не долетел)☄️🤪

А не запустить ли мне курс - как НЕ выиграть медаль на Kaggle? 🤔🤔

Решил поделиться - потому что иногда важнее набраться опыта, чем урвать призовые.

PS: Сорева по NLP на языке Хинди - вообще ничего не мог прочитать, чисто на метрики опирался. 🙂
PPS: В паре мест надо мной два индуса Kaggle-мастера🤙
Пофармил на этих выходных хакатон от МКБ. Задача интересная, предсказание факта наступления выплаты по гарантии.

Осталась пара дней до конца, но уже все адекватные идеи перебрал пока дошел до топ-5 из 3-x сотен DS'ов 🤺. Оставлю так, посмотрим, подбросит ли меня шафл на привате повыше. 😄🤟

Кто-то писал, что хак для начинающих, но такого не почувствовал. Пока поднимал скор - пришлось попотеть🧠🧠🧠.

#хочумакбук👨‍💻
#ЛикиНЕиспользовал💦

Интересно чем все закончится?
Накидайте идей в комменты 🤪
Неожиданно много людей написало насчет идей по хаку МКБ. 😳 Что так много людей хотят себе айфон или макбук?😅

Из того что услышал, мало кто вообще пытался дополнительные признаки генерировать 😳😳. Поэтому решил поделится одним успешным кейсом, который на мой взгляд хорошо разделяет данные по таргету. 🧠🚀

Расскажу что это и как я придумал этот признак через пару дней)

#FeatureEngineering на максималках
👍1
За 15 минут до конца выхожу в топ-3

Друзья, это для вас!❤️‍🔥

#МКБ
Братцы, одно скажу!
Цените матерей и максимально стабилизируйте свои решения, чтобы шафлило только вверх ☝️😄

Итог: топ-2 на привате🤟😱

#всемфарту🤞
#МКБ
👍1
Выкладываю своё решение по хакатону от МКБ на топ-2. Забирайте на разбор)🍿🎬

- Потрачено времени - 4 дня (full time)
- Сгенерировано 210 новых признаков🚵
- Только 10 новых признаков дают резкий прирост в точности
- Финальная модель - ансамбль двух катбустов🐈 🐈
- Результат - 2й на привате🏆

Из ощущений о кейсе:
- 70% успеха - это новые признаки / работа с данными
- 20% успеха - это работа с моделью / коддинг
- 10% понимание доменной области / или гугление

Ссылка на GitHub: github.com/a-milenkin/MKB_hack
Отдельными постами расскажу про фишки/трюки, которые сработали.

#two_cats_to_top
#забирай_и_побеждай
🔥3
#Трюк № 35 - стабилизация решений🛹⚖️

Представьте такую ситуацию, вы потратили уйму времени, чтобы занять лидирующую позицию в топе лидерборда. А после оценки вашей модели на приватной выборке - ваш результат уходит в закат 🌅, а точнее слетает на N позиций вниз🛬. Что вы чувствуете? 🤷‍♀️😕🌡

Что ж, сейчас дядя Саша расскажет одну Kaggle'скую фишку, как можно взять шафл под свой контроль и скидывать вниз по лидерборду всех, кто плохо пристегнулся💺.

Сама процедура прозвучит как абсурд, как бессмысленная операция, как бред больного, но метод на моей практике показал себя хорошо. (Пруф эффективности трюка на скрине ниже)

Идея трюка такая:
1 - Берем модель, фиксируем random_state/seed модели, обучаем, сохраняем.
2 - Создаем новую точно такую же модель, фиксируем НОВЫЙ random_state, обучаем, сохраняем.
3 - Делаем так несколько раз .
4 - Далее просто усредняем прогнозы полученных моделей с разными seed'ами. Все🙅‍♂️

Сама точность прогноза обычно не отличается. Она даже может быть больше/меньше, чем без усреднения.
Но преимущество в том, что такой ответ более стабильный по множеству причин. Эту идею часто используют не только в классическом ML, но даже в CV, NLP, GAN'ах.

P.S. - Если ваша модель детерминированная (linear regression), то можно зайти с другой стороны. Берем K-фолдное разбиение и повторяем его несколько раз при разных random_state'ах. Результаты усредняем.

#теперь_фарт_в_твоей_команде
👍5
Картинка к посту выше
#Трюк № 35
2
Заметил, что вы активно откликаетесь на реальные примеры побед/успехов. Даже пишите в личку или просто поддерживаете в комментариях. Спасибо.

Мне нравится делиться тем, как можно "хакнуть" какой-нибудь чемпионат по DS/ML. Однако, я рассказываю только про итоги, показываю уже рабочее чистое решение, не раскрывая при этом того, как прихожу к таким результатам. Хотя успеваю проверить море гипотез, при этом 95% из них не выстреливает. Вот это и есть реальный соревновательный анализ данных.

Что ж, настало время поднять ставки, рискнуть и показать этот процесс со старта.
Говорить о будущем успехе глупо и опрометчиво - никогда так не делаю, но именно в этот раз - Я изменю формат.

> Я обещаю выйти минимум в топ-10%🥉в свежем соревновании по NLP на Kaggle: 🔥🔥🔥🔥🔥 www.kaggle.com/c/jigsaw-toxic-severity-rating

Задача: ранжирование текстов по уровню токсичности. Впереди два месяца и сотни способов не выполнить своё обещание.

Эта серия постов будет носить тег: #Aleron_фармит🤹‍♂️

Как думаете, провалю? 🙂
👍3🔥1
Зачем вам в IT? Почему именно анализ данных?? 🤷‍♀️ Высокие зарплаты? Возможность удаленки с Бали? 🌴

Мой личный ответ - все ради соревновательной атмосферы анализа данных🏎🏁🏇

Давно мечтал посетить Новосибирск, и вот уже на пару с коллегой прокачиваем новосибирских талантливых школьников в ML. Несколько дней вели практикумы. В финале дали задачку на классификацию картинок с лидербордом. Все в лучших традициях Kaggle💪😉.
Вы бы знали, что делает с человеком желание поднять скор на борде и обойти других😹. Море эмоций и буря идей тут же вырываются на волю😈🔥

Инсайд: не пытайтесь раскачать человека словами, просто разожгите в нем любопытство, а там уже этот поезд не остановить 🚝. Так сложные концепции впрах разбиваются о бетонную стену азарта. 👊

P.S - мой не самый слабый бейзлайн был побит школьниками меньше, чем за час💥😳👏
#Новосибирск -20🌡
👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Ох, пока был в Новосибирске случайно попал на местное TV😅

А правда, что все ребята из IT любят худи? 🤫

P.S. - Это последний пост про Новосиб, дальше будет про ML)

#бабулясвязаламнесвитшот
👍21
Перед тем как уйти в анализ данных, я увлекался биоинформатикой. И вот если меня спрашивают, что полезного привнес ML в биологию, то всегда привожу в пример алгоритм AlphaFold от DeepMind. Алгоритм, который способен по последовательности аминокислот белка вернуть 3D структуру этого белка.

Оказывается, сегодня будет лекции по разбору алгоритма AlphaFold 2 с точки зрения идей ML инженерии.
Сам пойду и с вами делюсь: t.me/sberloga/182

P.S. - Организуют коллеги из Сберлоги: t.me/sberloga

update: будет про AlphaFold 2!!!

Zoom: https://us02web.zoom.us/j/85490858077?pwd=ZXgzc2xFMHY3NHNieXdTTXZyN1dEUT09
🤩1
Что ж, в жизни каждого DS'a рано или поздно наступает момент жениться приобрести видеокарточку.

Т.к в ближайщие два месяца мне предстоит хорошенько так пофармить👨🏻‍🌾 Kaggle, то решил не мелочиться и сделать себе подарок на новый год🎅🏻и купить железа⚙️. Кенты из DS советуют вот таких всадников апокалипсиса:

- RTX 2080 ti
- RTX 3080 ti
- RTX 3090

Надеюсь, что смогу купить где-нибудь с рук т.к цены кусаются - 100к минимум💸. Если кто-то может посоветовать варианты - пишите в коменты или лс. В теме железа я пока новичок.

#Aleron_фармит
🔥1
Начинаю подводить итоги года🥂👨🏻‍🌾

Так вышло, что этот год, сам того не замечая, я "обильно" преподавал, поэтому ожидаемым шоком для меня стала следующая статистика. За 2021-й год я успел провести:

- 41 вебинар в Otus по ML
- 33 вебинара по статистике в Нетологии
- 15 семинаров в МФТИ по анализу данных
- 16 вебинаров разной тематики в DLS, Мегафон, Сбер, РШП
- Записать курс по АБ - тестированию в SkillBox
- Вывести в свет 11 топиков в курсе по Flask в Jet Brains.
- "Зачать" курс по соревновательному DS с Proglib

Итого:
Около 118 вебинаров/семинаров/лекций за год!!!😳
Считай, что раз в три дня надо было сесть и прокачать кого-нибудь в DS. Мой самый отточенный навык за этот год - могу объяснить, что такое p-value даже детям. Да что там дети, моя бабуля уже даже бустинги тюнит.

Преподавание - преподаванием, но учиться тоже надо, поэтому, в свою очередь, успел пройти:

- 5 курсов в школе MADE
- 4 курса на Coursera
- 4 курса на Stepik

Было бы время, прошел бы больше🙈

#НеРеклама
#OnlineКурсыТопчик
#Прокачиваю
👍4
Говорят, новый год не начнется, пока не составишь планы!🎅🏻

Выделил несколько пунктов на этот год, связанные с DS, погнали! За этот год в моих планах:

- Отвоевать официальный титул Kaggle мастера🤹‍♂️🏵
- Запустить вебинары совместно с Deep Learning School👨‍🎨
- Довести 3-х людей до медалек на Kaggle🥇🧞‍♂️
- Прижиться и по возможности стать лидом в X5 👷‍♂️🚀
- Выпустить авторский интенсив по DS🎯
- Опубликовать уже наконец-то научную статью🤪

Год будет богат на хакатоны и чемпионаты. Буду фармить и делиться всеми трюками на максималках. Следите!

Всех с наступающим, чемпионы!
🎉6
Не стоит звать меня в команду, если вы не заряженны, как этот парниша 👆🤠🤪

С наступившим!🥳
Понеслась!🏇🎉

#мотивация
#побеждают_только_безумцы
#СберМаркет
👍4
Пару недель назад обещнулся урвать бронзу по ранжированию текстов на Kaggle. Уже начал тюнить ансамбль BERT’тов, но это не мешает участвовать параллельно еще где-то.

Сейчас ворвались в специфичную сореву по рекомендашкам от Сбера на🍋💰Думал, в начале январских с гордостью сделаю пост, как с кентами вошли топ-5, но пока держим топ-8. Осталось еще 5 дней. Долбим баги дальше. 🪲

Надеюсь на топ-3, ибо тиммейты заряженные до бешенства💪Раньше таких не встречал😳. Скоро расскажу, как собирать команду, чтобы брать любые вершины.

А еще рад новому апдейту телеги. Теперь можно оставлять реакции. Пробуйте 😉

#Aleron_фармит
🔥53👍23🤩4👎3😢1
Так, банда, делюсь новостями. Все по порядку:

1) Моя статья на Хабре, написанная утром за час, вошла в топ лучших за сутки. 🏆🏆🏆

2) СберМаркет переполнился техническими багами и продлил дедлайн. Теперь есть еще неделя, чтоб урвать призовые🕹. Тем временем, мы уже ближе к топу🤫. Сейчас топ-6, полет нормальный😤

3) Прошел мой первый боевой день в X5 Group. Атмосфера превзошла все мои ожидания. Очень нравится🔝

4) Помните, я искал видео-карточку, чтобы фармить? 🏎Теперь у меня есть карточка) Причем проблему я решил гениально. Даже платить не пришлось. Как решил, расскажу в конце месяца.
🔥21👍13🎉2
Для меня вчера было шоком узнать, сколько в моём окружении парней из DS, кто пришел в индустрию после 30 лет. 💪🔥

"Вошли в Data Science после 30-ти и не вышли" - Именно так я назову следующую статью с коротким интервью от этих ребят.

Парни реально крутые. Есть джуны, есть даже лиды, а кто-то просто крушит хакатончики один за другим. Над форматом еще подумаю, но выпуск точно выйдет вдохновляющим.🤔

А ты уже вошел в DS?)
👍56🔥65🎉3