NEW BOT Телеграм, страница

🏆 Data Feeling | AIeron

Братцы, одно скажу!
Цените матерей и максимально стабилизируйте свои решения, чтобы шафлило только вверх ☝️😄

Итог: топ-2 на привате🤟😱

#всемфарту🤞
#МКБ

👍1

2.79K viewsАлерон Миленькин, edited 11:04

👍 69 😐👎💬 6

🏆 Data Feeling | AIeron

Выкладываю своё решение по хакатону от МКБ на топ-2. Забирайте на разбор)🍿🎬

- Потрачено времени - 4 дня (full time)
- Сгенерировано 210 новых признаков🚵
- Только 10 новых признаков дают резкий прирост в точности
- Финальная модель - ансамбль двух катбустов🐈 🐈
- Результат - 2й на привате🏆

Из ощущений о кейсе:
- 70% успеха - это новые признаки / работа с данными
- 20% успеха - это работа с моделью / коддинг
- 10% понимание доменной области / или гугление

Ссылка на GitHub: github.com/a-milenkin/MKB_hack
Отдельными постами расскажу про фишки/трюки, которые сработали.

#two_cats_to_top
#забирай_и_побеждай

🔥3

3.7K viewsАлерон Миленькин, edited 13:48

👍 55 😐👎💬 6

🏆 Data Feeling | AIeron

#Трюк № 35 - стабилизация решений🛹⚖️

Представьте такую ситуацию, вы потратили уйму времени, чтобы занять лидирующую позицию в топе лидерборда. А после оценки вашей модели на приватной выборке - ваш результат уходит в закат 🌅, а точнее слетает на N позиций вниз🛬. Что вы чувствуете? 🤷‍♀️😕🌡

Что ж, сейчас дядя Саша расскажет одну Kaggle'скую фишку, как можно взять шафл под свой контроль и скидывать вниз по лидерборду всех, кто плохо пристегнулся💺.

Сама процедура прозвучит как абсурд, как бессмысленная операция, как бред больного, но метод на моей практике показал себя хорошо. (Пруф эффективности трюка на скрине ниже)

Идея трюка такая:
1 - Берем модель, фиксируем random_state/seed модели, обучаем, сохраняем.
2 - Создаем новую точно такую же модель, фиксируем НОВЫЙ random_state, обучаем, сохраняем.
3 - Делаем так несколько раз .
4 - Далее просто усредняем прогнозы полученных моделей с разными seed'ами. Все🙅‍♂️

Сама точность прогноза обычно не отличается. Она даже может быть больше/меньше, чем без усреднения.
Но преимущество в том, что такой ответ более стабильный по множеству причин. Эту идею часто используют не только в классическом ML, но даже в CV, NLP, GAN'ах.

P.S. - Если ваша модель детерминированная (linear regression), то можно зайти с другой стороны. Берем K-фолдное разбиение и повторяем его несколько раз при разных random_state'ах. Результаты усредняем.

#теперь_фарт_в_твоей_команде

👍5

3.61K viewsАлерон Миленькин, edited 14:06

👍 34 😐 1 👎💬

🏆 Data Feeling | AIeron

Картинка к посту выше
#Трюк № 35

❤2

3.26K viewsАлерон Миленькин, edited 14:07

👍 21 😐👎💬

🏆 Data Feeling | AIeron

Заметил, что вы активно откликаетесь на реальные примеры побед/успехов. Даже пишите в личку или просто поддерживаете в комментариях. Спасибо.

Мне нравится делиться тем, как можно "хакнуть" какой-нибудь чемпионат по DS/ML. Однако, я рассказываю только про итоги, показываю уже рабочее чистое решение, не раскрывая при этом того, как прихожу к таким результатам. Хотя успеваю проверить море гипотез, при этом 95% из них не выстреливает. Вот это и есть реальный соревновательный анализ данных.

Что ж, настало время поднять ставки, рискнуть и показать этот процесс со старта.
Говорить о будущем успехе глупо и опрометчиво - никогда так не делаю, но именно в этот раз - Я изменю формат.

> Я обещаю выйти минимум в топ-10%🥉в свежем соревновании по NLP на Kaggle: 🔥🔥🔥🔥🔥 www.kaggle.com/c/jigsaw-toxic-severity-rating

Задача: ранжирование текстов по уровню токсичности. Впереди два месяца и сотни способов не выполнить своё обещание.

Эта серия постов будет носить тег: #Aleron_фармит🤹‍♂️

Как думаете, провалю? 🙂

👍3🔥1

4.21K viewsАлерон Миленькин, edited 11:05

👍 64 😐 1 👎💬 8

🏆 Data Feeling | AIeron

Зачем вам в IT? Почему именно анализ данных?? 🤷‍♀️ Высокие зарплаты? Возможность удаленки с Бали? 🌴

Мой личный ответ - все ради соревновательной атмосферы анализа данных🏎🏁🏇

Давно мечтал посетить Новосибирск, и вот уже на пару с коллегой прокачиваем новосибирских талантливых школьников в ML. Несколько дней вели практикумы. В финале дали задачку на классификацию картинок с лидербордом. Все в лучших традициях Kaggle💪😉.
Вы бы знали, что делает с человеком желание поднять скор на борде и обойти других😹. Море эмоций и буря идей тут же вырываются на волю😈🔥

Инсайд: не пытайтесь раскачать человека словами, просто разожгите в нем любопытство, а там уже этот поезд не остановить 🚝. Так сложные концепции впрах разбиваются о бетонную стену азарта. 👊

P.S - мой не самый слабый бейзлайн был побит школьниками меньше, чем за час💥😳👏
#Новосибирск -20🌡

👍2🔥2

2.86K viewsАлерон Миленькин, edited 11:21

👍 26 😐👎💬

🏆 Data Feeling | AIeron

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

🔥1

2.87K viewsАлерон Миленькин, 11:21

👍 19 😐 2 👎💬

🏆 Data Feeling | AIeron

1:52

This media is not supported in your browser

VIEW IN TELEGRAM

Ох, пока был в Новосибирске случайно попал на местное TV😅

А правда, что все ребята из IT любят худи? 🤫

P.S. - Это последний пост про Новосиб, дальше будет про ML)

#бабулясвязаламнесвитшот

👍2❤1

2.77K viewsАлерон Миленькин, edited 07:32

👍 25 😐 2 👎 1 💬

🏆 Data Feeling | AIeron

🏆 Data Feeling | AIeron pinned a photo

16:09

🏆 Data Feeling | AIeron

Перед тем как уйти в анализ данных, я увлекался биоинформатикой. И вот если меня спрашивают, что полезного привнес ML в биологию, то всегда привожу в пример алгоритм AlphaFold от DeepMind. Алгоритм, который способен по последовательности аминокислот белка вернуть 3D структуру этого белка.

Оказывается, сегодня будет лекции по разбору алгоритма AlphaFold 2 с точки зрения идей ML инженерии.
Сам пойду и с вами делюсь: t.me/sberloga/182

P.S. - Организуют коллеги из Сберлоги: t.me/sberloga

update: будет про AlphaFold 2!!!

Zoom: https://us02web.zoom.us/j/85490858077?pwd=ZXgzc2xFMHY3NHNieXdTTXZyN1dEUT09

🤩1

3.1K viewsАлерон Миленькин, edited 12:09

👍 12 😐👎💬 3

🏆 Data Feeling | AIeron

Что ж, в жизни каждого DS'a рано или поздно наступает момент ~~жениться~~ приобрести видеокарточку.

Т.к в ближайщие два месяца мне предстоит хорошенько так пофармить👨🏻‍🌾 Kaggle, то решил не мелочиться и сделать себе подарок на новый год🎅🏻и купить железа⚙️. Кенты из DS советуют вот таких всадников апокалипсиса:

- RTX 2080 ti
- RTX 3080 ti
- RTX 3090

Надеюсь, что смогу купить где-нибудь с рук т.к цены кусаются - 100к минимум💸. Если кто-то может посоветовать варианты - пишите в коменты или лс. В теме железа я пока новичок.

#Aleron_фармит

🔥1

2.89K viewsАлерон Миленькин, edited 09:54

👍 16 😐 1 👎💬 3

🏆 Data Feeling | AIeron

Начинаю подводить итоги года🥂👨🏻‍🌾

Так вышло, что этот год, сам того не замечая, я "обильно" преподавал, поэтому ожидаемым шоком для меня стала следующая статистика. За 2021-й год я успел провести:

- 41 вебинар в Otus по ML
- 33 вебинара по статистике в Нетологии
- 15 семинаров в МФТИ по анализу данных
- 16 вебинаров разной тематики в DLS, Мегафон, Сбер, РШП
- Записать курс по АБ - тестированию в SkillBox
- Вывести в свет 11 топиков в курсе по Flask в Jet Brains.
- "Зачать" курс по соревновательному DS с Proglib

Итого: Около 118 вебинаров/семинаров/лекций за год!!!😳
Считай, что раз в три дня надо было сесть и прокачать кого-нибудь в DS. Мой самый отточенный навык за этот год - могу объяснить, что такое p-value даже детям. ~~Да что там дети, моя бабуля уже даже бустинги тюнит.~~

Преподавание - преподаванием, но учиться тоже надо, поэтому, в свою очередь, успел пройти:

- 5 курсов в школе MADE
- 4 курса на Coursera
- 4 курса на Stepik

Было бы время, прошел бы больше🙈

#НеРеклама
#OnlineКурсыТопчик
#Прокачиваю

👍4

3.32K viewsАлерон Миленькин, edited 15:33

👍 68 😐👎💬 9

🏆 Data Feeling | AIeron

Говорят, новый год не начнется, пока не составишь планы!🎅🏻

Выделил несколько пунктов на этот год, связанные с DS, погнали! За этот год в моих планах:

- Отвоевать официальный титул Kaggle мастера🤹‍♂️🏵
- Запустить вебинары совместно с Deep Learning School👨‍🎨
- Довести 3-х людей до медалек на Kaggle🥇🧞‍♂️
- Прижиться и по возможности стать лидом в X5 👷‍♂️🚀
- Выпустить авторский интенсив по DS🎯
- Опубликовать уже наконец-то научную статью🤪

Год будет богат на хакатоны и чемпионаты. Буду фармить и делиться всеми трюками на максималках. Следите!

Всех с наступающим, чемпионы!

🎉6

3.56K viewsАлерон Миленькин, edited 11:42

👍 60 😐👎 1 💬

🏆 Data Feeling | AIeron

Не стоит звать меня в команду, если вы не заряженны, как этот парниша 👆🤠🤪

С наступившим!🥳
Понеслась!🏇🎉

#мотивация
#побеждают_только_безумцы
#СберМаркет

👍4

3.78K viewsАлерон Миленькин, edited 21:49

👍 31 😐 4 👎💬

🏆 Data Feeling | AIeron

Пару недель назад обещнулся урвать бронзу по ранжированию текстов на Kaggle. Уже начал тюнить ансамбль BERT’тов, но это не мешает участвовать параллельно еще где-то.

Сейчас ворвались в специфичную сореву по рекомендашкам от Сбера на🍋💰Думал, в начале январских с гордостью сделаю пост, как с кентами вошли топ-5, но пока держим топ-8. Осталось еще 5 дней. Долбим баги дальше. 🪲⛏

Надеюсь на топ-3, ибо тиммейты заряженные до бешенства💪Раньше таких не встречал😳. Скоро расскажу, как собирать команду, чтобы брать любые вершины.

А еще рад новому апдейту телеги. Теперь можно оставлять реакции. Пробуйте 😉

#Aleron_фармит

🔥53👍23🤩4👎3😢1

3.32K viewsАлерон Миленькин, edited 15:30

🏆 Data Feeling | AIeron

Так, банда, делюсь новостями. Все по порядку:

1) Моя статья на Хабре, написанная утром за час, вошла в топ лучших за сутки. 🏆🏆🏆

2) СберМаркет переполнился техническими багами и продлил дедлайн. Теперь есть еще неделя, чтоб урвать призовые🕹. Тем временем, мы уже ближе к топу🤫. Сейчас топ-6, полет нормальный😤

3) Прошел мой первый боевой день в X5 Group. Атмосфера превзошла все мои ожидания. Очень нравится🔝

4) Помните, я искал видео-карточку, чтобы фармить? 🏎Теперь у меня есть карточка) Причем проблему я решил гениально. Даже платить не пришлось. Как решил, расскажу в конце месяца.

🔥21👍13🎉2

3.3K viewsАлерон Миленькин, edited 18:48

🏆 Data Feeling | AIeron

Для меня вчера было шоком узнать, сколько в моём окружении парней из DS, кто пришел в индустрию после 30 лет. 💪🔥

"Вошли в Data Science после 30-ти и не вышли" - Именно так я назову следующую статью с коротким интервью от этих ребят.

Парни реально крутые. Есть джуны, есть даже лиды, а кто-то просто крушит хакатончики один за другим. Над форматом еще подумаю, но выпуск точно выйдет вдохновляющим.🤔

А ты уже вошел в DS?)

👍56🔥6❤5🎉3

3.04K viewsАлександр (Aleron) Миленькин, edited 11:55

🏆 Data Feeling | AIeron

Иногда мне кажется, что я не тем занимаюсь, когда вижу такие вакансии с такими вилками.🤷‍♀️

В IT и то часто меньше предлагают.😅 Интересно, это net или gross?🤔

update:
в комментах поправили - это сеньор-танцор

🔥17😁8😢3

3K viewsАлександр (Aleron) Миленькин, edited 14:57

🏆 Data Feeling | AIeron

Что ж, посмеялись, теперь снова ныряем в тематику.

#Трюк №54 Feature Engineering

Именно эта техника превращает Data Sсience в искусство. Почему? Простой пример. Вот все любят хакатоны по табличкам, потому что они простые - "воткнул бустинг", и, если ты угадал с гиперпараметрами, ты в топе🏆. Однако, если ты мало знаешь про генерацию новых признаков, то твои оппоненты не дадут тебе так просто урвать призовые. 🙅‍♂️ Я проверял😕

Чтоб с успехом рамсИть с ~~индусами~~ лидерами на Kaggle за звание чемпиона, придется освоить эту технику 🧠

Так просто этому научить не смогу, но вот вам пример из моего опыта - классификация временных рядов. Выражу весь смысл техники одной фразой - новые признаки должны как можно более однозначно разделять объекты. Все.

В остальном - порефлексируйте над картинкой к посту или чекайте мою статейку по увеличению точности моделей.

👍28🔥5

3.67K viewsАлександр (Aleron) Миленькин, edited 16:59

🏆 Data Feeling | AIeron

🍋🙅‍♂️Упустили лям 😅

📈Скор подняли, но место уронили - топ-7 из 70 участников.

🤔Раньше почти никогда не участвовал в задачах на рекомендательные системы, но за этот хакатон успел отработать пайплайн😎. В следующие разы буду громить уже не с нуля. 🏹

🙈🙊Оказаться в топ-7 не так обидно, как ребятам на топ-2. Ведь призовые Сбер давал только за топ-1. Либо все, либо ничего 👌

✅Пока разбирался в рекомендашках, узнал столько полезных технических тонкостей в Pandas, LightFM и в целом в Python, что ни капли не пожалел, что сыграл. Такой опыт редко приобретёшь на работе. Будет теперь, о чем вам рассказать

Тима решает🎯
@MaxYaz вывел в топ-10
@Alexcei64 вывел в топ-5
@Aleron75 не вывел в топ-1

P.S. - отдельная сложность была - преодолеть баги платформы. Времени уходило изрядно🤷‍♀️🤦‍♀️🤹‍♂️

🔥33👍11

2.73K viewsАлександр (Aleron) Миленькин, edited 08:14

🏆 Data Feeling | AIeron

Можно ли свое хобби соревноваться на чемпионатах превратить в работу? Что?

😎Представьте, Вы на full time фармите Kaggle, вырываетесь в медали, скидываете оппонентов вниз по лидерборду. Жизнь прекрасна. А спустя месяц вам еще и зарплата за это прилетает. А в случае успеха еще и призовые🥳

😳Оказывается, такое есть. Узнал, что есть такая профессия - Kaggle фармить. И не только Kaggle, но любые другие открытые чемпионаты. Где-то даже был успешный кейс от Philips по соревнованию на ускорение MRT с помощью DL, но не нашел сходу ссылки на выступление этих ребят. В целом, примеры можно найти даже на Физтехе, где студенты участвую в чемпионатах, представляя свои лаборатории ~~раскидывают индусов налево и направо~~ за стипу.

🤔Закралась мысль, может, раскачать такую практику в России посильнее?!

🧞‍♂️За какую адекватную зп ты бы фармил на фул тайм? И в скольких чемпионатах смог бы участвовать одновременно?

👍15🔥5

2.76K viewsАлександр (Aleron) Миленькин, edited 11:00

About

Blog

Apps

Platform