🏆 Data Feeling | AI – Telegram
🏆 Data Feeling | AI
15.9K subscribers
732 photos
222 videos
6 files
469 links
IT предприниматель и препод 🧑‍🏫
ex-ML лидер в Dodo Brands 🦤🍕
Прокачиваю людей в Data Science 🚀
Победитель Stepik Awards 🏆
Kaggle Expert 🤹‍♀️
Создатель @Speakadora_bot @big_llm_course

РКН https://clik.now/datafeeling
Алерон @Ale_v2
Download Telegram
Пофармил на этих выходных хакатон от МКБ. Задача интересная, предсказание факта наступления выплаты по гарантии.

Осталась пара дней до конца, но уже все адекватные идеи перебрал пока дошел до топ-5 из 3-x сотен DS'ов 🤺. Оставлю так, посмотрим, подбросит ли меня шафл на привате повыше. 😄🤟

Кто-то писал, что хак для начинающих, но такого не почувствовал. Пока поднимал скор - пришлось попотеть🧠🧠🧠.

#хочумакбук👨‍💻
#ЛикиНЕиспользовал💦

Интересно чем все закончится?
Накидайте идей в комменты 🤪
Неожиданно много людей написало насчет идей по хаку МКБ. 😳 Что так много людей хотят себе айфон или макбук?😅

Из того что услышал, мало кто вообще пытался дополнительные признаки генерировать 😳😳. Поэтому решил поделится одним успешным кейсом, который на мой взгляд хорошо разделяет данные по таргету. 🧠🚀

Расскажу что это и как я придумал этот признак через пару дней)

#FeatureEngineering на максималках
👍1
За 15 минут до конца выхожу в топ-3

Друзья, это для вас!❤️‍🔥

#МКБ
Братцы, одно скажу!
Цените матерей и максимально стабилизируйте свои решения, чтобы шафлило только вверх ☝️😄

Итог: топ-2 на привате🤟😱

#всемфарту🤞
#МКБ
👍1
Выкладываю своё решение по хакатону от МКБ на топ-2. Забирайте на разбор)🍿🎬

- Потрачено времени - 4 дня (full time)
- Сгенерировано 210 новых признаков🚵
- Только 10 новых признаков дают резкий прирост в точности
- Финальная модель - ансамбль двух катбустов🐈 🐈
- Результат - 2й на привате🏆

Из ощущений о кейсе:
- 70% успеха - это новые признаки / работа с данными
- 20% успеха - это работа с моделью / коддинг
- 10% понимание доменной области / или гугление

Ссылка на GitHub: github.com/a-milenkin/MKB_hack
Отдельными постами расскажу про фишки/трюки, которые сработали.

#two_cats_to_top
#забирай_и_побеждай
🔥3
#Трюк № 35 - стабилизация решений🛹⚖️

Представьте такую ситуацию, вы потратили уйму времени, чтобы занять лидирующую позицию в топе лидерборда. А после оценки вашей модели на приватной выборке - ваш результат уходит в закат 🌅, а точнее слетает на N позиций вниз🛬. Что вы чувствуете? 🤷‍♀️😕🌡

Что ж, сейчас дядя Саша расскажет одну Kaggle'скую фишку, как можно взять шафл под свой контроль и скидывать вниз по лидерборду всех, кто плохо пристегнулся💺.

Сама процедура прозвучит как абсурд, как бессмысленная операция, как бред больного, но метод на моей практике показал себя хорошо. (Пруф эффективности трюка на скрине ниже)

Идея трюка такая:
1 - Берем модель, фиксируем random_state/seed модели, обучаем, сохраняем.
2 - Создаем новую точно такую же модель, фиксируем НОВЫЙ random_state, обучаем, сохраняем.
3 - Делаем так несколько раз .
4 - Далее просто усредняем прогнозы полученных моделей с разными seed'ами. Все🙅‍♂️

Сама точность прогноза обычно не отличается. Она даже может быть больше/меньше, чем без усреднения.
Но преимущество в том, что такой ответ более стабильный по множеству причин. Эту идею часто используют не только в классическом ML, но даже в CV, NLP, GAN'ах.

P.S. - Если ваша модель детерминированная (linear regression), то можно зайти с другой стороны. Берем K-фолдное разбиение и повторяем его несколько раз при разных random_state'ах. Результаты усредняем.

#теперь_фарт_в_твоей_команде
👍5
Картинка к посту выше
#Трюк № 35
2
Заметил, что вы активно откликаетесь на реальные примеры побед/успехов. Даже пишите в личку или просто поддерживаете в комментариях. Спасибо.

Мне нравится делиться тем, как можно "хакнуть" какой-нибудь чемпионат по DS/ML. Однако, я рассказываю только про итоги, показываю уже рабочее чистое решение, не раскрывая при этом того, как прихожу к таким результатам. Хотя успеваю проверить море гипотез, при этом 95% из них не выстреливает. Вот это и есть реальный соревновательный анализ данных.

Что ж, настало время поднять ставки, рискнуть и показать этот процесс со старта.
Говорить о будущем успехе глупо и опрометчиво - никогда так не делаю, но именно в этот раз - Я изменю формат.

> Я обещаю выйти минимум в топ-10%🥉в свежем соревновании по NLP на Kaggle: 🔥🔥🔥🔥🔥 www.kaggle.com/c/jigsaw-toxic-severity-rating

Задача: ранжирование текстов по уровню токсичности. Впереди два месяца и сотни способов не выполнить своё обещание.

Эта серия постов будет носить тег: #Aleron_фармит🤹‍♂️

Как думаете, провалю? 🙂
👍3🔥1
Зачем вам в IT? Почему именно анализ данных?? 🤷‍♀️ Высокие зарплаты? Возможность удаленки с Бали? 🌴

Мой личный ответ - все ради соревновательной атмосферы анализа данных🏎🏁🏇

Давно мечтал посетить Новосибирск, и вот уже на пару с коллегой прокачиваем новосибирских талантливых школьников в ML. Несколько дней вели практикумы. В финале дали задачку на классификацию картинок с лидербордом. Все в лучших традициях Kaggle💪😉.
Вы бы знали, что делает с человеком желание поднять скор на борде и обойти других😹. Море эмоций и буря идей тут же вырываются на волю😈🔥

Инсайд: не пытайтесь раскачать человека словами, просто разожгите в нем любопытство, а там уже этот поезд не остановить 🚝. Так сложные концепции впрах разбиваются о бетонную стену азарта. 👊

P.S - мой не самый слабый бейзлайн был побит школьниками меньше, чем за час💥😳👏
#Новосибирск -20🌡
👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Ох, пока был в Новосибирске случайно попал на местное TV😅

А правда, что все ребята из IT любят худи? 🤫

P.S. - Это последний пост про Новосиб, дальше будет про ML)

#бабулясвязаламнесвитшот
👍21
Перед тем как уйти в анализ данных, я увлекался биоинформатикой. И вот если меня спрашивают, что полезного привнес ML в биологию, то всегда привожу в пример алгоритм AlphaFold от DeepMind. Алгоритм, который способен по последовательности аминокислот белка вернуть 3D структуру этого белка.

Оказывается, сегодня будет лекции по разбору алгоритма AlphaFold 2 с точки зрения идей ML инженерии.
Сам пойду и с вами делюсь: t.me/sberloga/182

P.S. - Организуют коллеги из Сберлоги: t.me/sberloga

update: будет про AlphaFold 2!!!

Zoom: https://us02web.zoom.us/j/85490858077?pwd=ZXgzc2xFMHY3NHNieXdTTXZyN1dEUT09
🤩1
Что ж, в жизни каждого DS'a рано или поздно наступает момент жениться приобрести видеокарточку.

Т.к в ближайщие два месяца мне предстоит хорошенько так пофармить👨🏻‍🌾 Kaggle, то решил не мелочиться и сделать себе подарок на новый год🎅🏻и купить железа⚙️. Кенты из DS советуют вот таких всадников апокалипсиса:

- RTX 2080 ti
- RTX 3080 ti
- RTX 3090

Надеюсь, что смогу купить где-нибудь с рук т.к цены кусаются - 100к минимум💸. Если кто-то может посоветовать варианты - пишите в коменты или лс. В теме железа я пока новичок.

#Aleron_фармит
🔥1
Начинаю подводить итоги года🥂👨🏻‍🌾

Так вышло, что этот год, сам того не замечая, я "обильно" преподавал, поэтому ожидаемым шоком для меня стала следующая статистика. За 2021-й год я успел провести:

- 41 вебинар в Otus по ML
- 33 вебинара по статистике в Нетологии
- 15 семинаров в МФТИ по анализу данных
- 16 вебинаров разной тематики в DLS, Мегафон, Сбер, РШП
- Записать курс по АБ - тестированию в SkillBox
- Вывести в свет 11 топиков в курсе по Flask в Jet Brains.
- "Зачать" курс по соревновательному DS с Proglib

Итого:
Около 118 вебинаров/семинаров/лекций за год!!!😳
Считай, что раз в три дня надо было сесть и прокачать кого-нибудь в DS. Мой самый отточенный навык за этот год - могу объяснить, что такое p-value даже детям. Да что там дети, моя бабуля уже даже бустинги тюнит.

Преподавание - преподаванием, но учиться тоже надо, поэтому, в свою очередь, успел пройти:

- 5 курсов в школе MADE
- 4 курса на Coursera
- 4 курса на Stepik

Было бы время, прошел бы больше🙈

#НеРеклама
#OnlineКурсыТопчик
#Прокачиваю
👍4
Говорят, новый год не начнется, пока не составишь планы!🎅🏻

Выделил несколько пунктов на этот год, связанные с DS, погнали! За этот год в моих планах:

- Отвоевать официальный титул Kaggle мастера🤹‍♂️🏵
- Запустить вебинары совместно с Deep Learning School👨‍🎨
- Довести 3-х людей до медалек на Kaggle🥇🧞‍♂️
- Прижиться и по возможности стать лидом в X5 👷‍♂️🚀
- Выпустить авторский интенсив по DS🎯
- Опубликовать уже наконец-то научную статью🤪

Год будет богат на хакатоны и чемпионаты. Буду фармить и делиться всеми трюками на максималках. Следите!

Всех с наступающим, чемпионы!
🎉6
Не стоит звать меня в команду, если вы не заряженны, как этот парниша 👆🤠🤪

С наступившим!🥳
Понеслась!🏇🎉

#мотивация
#побеждают_только_безумцы
#СберМаркет
👍4
Пару недель назад обещнулся урвать бронзу по ранжированию текстов на Kaggle. Уже начал тюнить ансамбль BERT’тов, но это не мешает участвовать параллельно еще где-то.

Сейчас ворвались в специфичную сореву по рекомендашкам от Сбера на🍋💰Думал, в начале январских с гордостью сделаю пост, как с кентами вошли топ-5, но пока держим топ-8. Осталось еще 5 дней. Долбим баги дальше. 🪲

Надеюсь на топ-3, ибо тиммейты заряженные до бешенства💪Раньше таких не встречал😳. Скоро расскажу, как собирать команду, чтобы брать любые вершины.

А еще рад новому апдейту телеги. Теперь можно оставлять реакции. Пробуйте 😉

#Aleron_фармит
🔥53👍23🤩4👎3😢1
Так, банда, делюсь новостями. Все по порядку:

1) Моя статья на Хабре, написанная утром за час, вошла в топ лучших за сутки. 🏆🏆🏆

2) СберМаркет переполнился техническими багами и продлил дедлайн. Теперь есть еще неделя, чтоб урвать призовые🕹. Тем временем, мы уже ближе к топу🤫. Сейчас топ-6, полет нормальный😤

3) Прошел мой первый боевой день в X5 Group. Атмосфера превзошла все мои ожидания. Очень нравится🔝

4) Помните, я искал видео-карточку, чтобы фармить? 🏎Теперь у меня есть карточка) Причем проблему я решил гениально. Даже платить не пришлось. Как решил, расскажу в конце месяца.
🔥21👍13🎉2
Для меня вчера было шоком узнать, сколько в моём окружении парней из DS, кто пришел в индустрию после 30 лет. 💪🔥

"Вошли в Data Science после 30-ти и не вышли" - Именно так я назову следующую статью с коротким интервью от этих ребят.

Парни реально крутые. Есть джуны, есть даже лиды, а кто-то просто крушит хакатончики один за другим. Над форматом еще подумаю, но выпуск точно выйдет вдохновляющим.🤔

А ты уже вошел в DS?)
👍56🔥65🎉3
Иногда мне кажется, что я не тем занимаюсь, когда вижу такие вакансии с такими вилками.🤷‍♀️

В IT и то часто меньше предлагают.😅 Интересно, это net или gross?🤔

update:
в комментах поправили - это сеньор-танцор
🔥17😁8😢3