🏆 Data Feeling | AI – Telegram
🏆 Data Feeling | AI
15.9K subscribers
732 photos
222 videos
6 files
469 links
IT предприниматель и препод 🧑‍🏫
ex-ML лидер в Dodo Brands 🦤🍕
Прокачиваю людей в Data Science 🚀
Победитель Stepik Awards 🏆
Kaggle Expert 🤹‍♀️
Создатель @Speakadora_bot @big_llm_course

РКН https://clik.now/datafeeling
Алерон @Ale_v2
Download Telegram
Заметил, что вы активно откликаетесь на реальные примеры побед/успехов. Даже пишите в личку или просто поддерживаете в комментариях. Спасибо.

Мне нравится делиться тем, как можно "хакнуть" какой-нибудь чемпионат по DS/ML. Однако, я рассказываю только про итоги, показываю уже рабочее чистое решение, не раскрывая при этом того, как прихожу к таким результатам. Хотя успеваю проверить море гипотез, при этом 95% из них не выстреливает. Вот это и есть реальный соревновательный анализ данных.

Что ж, настало время поднять ставки, рискнуть и показать этот процесс со старта.
Говорить о будущем успехе глупо и опрометчиво - никогда так не делаю, но именно в этот раз - Я изменю формат.

> Я обещаю выйти минимум в топ-10%🥉в свежем соревновании по NLP на Kaggle: 🔥🔥🔥🔥🔥 www.kaggle.com/c/jigsaw-toxic-severity-rating

Задача: ранжирование текстов по уровню токсичности. Впереди два месяца и сотни способов не выполнить своё обещание.

Эта серия постов будет носить тег: #Aleron_фармит🤹‍♂️

Как думаете, провалю? 🙂
👍3🔥1
Зачем вам в IT? Почему именно анализ данных?? 🤷‍♀️ Высокие зарплаты? Возможность удаленки с Бали? 🌴

Мой личный ответ - все ради соревновательной атмосферы анализа данных🏎🏁🏇

Давно мечтал посетить Новосибирск, и вот уже на пару с коллегой прокачиваем новосибирских талантливых школьников в ML. Несколько дней вели практикумы. В финале дали задачку на классификацию картинок с лидербордом. Все в лучших традициях Kaggle💪😉.
Вы бы знали, что делает с человеком желание поднять скор на борде и обойти других😹. Море эмоций и буря идей тут же вырываются на волю😈🔥

Инсайд: не пытайтесь раскачать человека словами, просто разожгите в нем любопытство, а там уже этот поезд не остановить 🚝. Так сложные концепции впрах разбиваются о бетонную стену азарта. 👊

P.S - мой не самый слабый бейзлайн был побит школьниками меньше, чем за час💥😳👏
#Новосибирск -20🌡
👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Ох, пока был в Новосибирске случайно попал на местное TV😅

А правда, что все ребята из IT любят худи? 🤫

P.S. - Это последний пост про Новосиб, дальше будет про ML)

#бабулясвязаламнесвитшот
👍21
Перед тем как уйти в анализ данных, я увлекался биоинформатикой. И вот если меня спрашивают, что полезного привнес ML в биологию, то всегда привожу в пример алгоритм AlphaFold от DeepMind. Алгоритм, который способен по последовательности аминокислот белка вернуть 3D структуру этого белка.

Оказывается, сегодня будет лекции по разбору алгоритма AlphaFold 2 с точки зрения идей ML инженерии.
Сам пойду и с вами делюсь: t.me/sberloga/182

P.S. - Организуют коллеги из Сберлоги: t.me/sberloga

update: будет про AlphaFold 2!!!

Zoom: https://us02web.zoom.us/j/85490858077?pwd=ZXgzc2xFMHY3NHNieXdTTXZyN1dEUT09
🤩1
Что ж, в жизни каждого DS'a рано или поздно наступает момент жениться приобрести видеокарточку.

Т.к в ближайщие два месяца мне предстоит хорошенько так пофармить👨🏻‍🌾 Kaggle, то решил не мелочиться и сделать себе подарок на новый год🎅🏻и купить железа⚙️. Кенты из DS советуют вот таких всадников апокалипсиса:

- RTX 2080 ti
- RTX 3080 ti
- RTX 3090

Надеюсь, что смогу купить где-нибудь с рук т.к цены кусаются - 100к минимум💸. Если кто-то может посоветовать варианты - пишите в коменты или лс. В теме железа я пока новичок.

#Aleron_фармит
🔥1
Начинаю подводить итоги года🥂👨🏻‍🌾

Так вышло, что этот год, сам того не замечая, я "обильно" преподавал, поэтому ожидаемым шоком для меня стала следующая статистика. За 2021-й год я успел провести:

- 41 вебинар в Otus по ML
- 33 вебинара по статистике в Нетологии
- 15 семинаров в МФТИ по анализу данных
- 16 вебинаров разной тематики в DLS, Мегафон, Сбер, РШП
- Записать курс по АБ - тестированию в SkillBox
- Вывести в свет 11 топиков в курсе по Flask в Jet Brains.
- "Зачать" курс по соревновательному DS с Proglib

Итого:
Около 118 вебинаров/семинаров/лекций за год!!!😳
Считай, что раз в три дня надо было сесть и прокачать кого-нибудь в DS. Мой самый отточенный навык за этот год - могу объяснить, что такое p-value даже детям. Да что там дети, моя бабуля уже даже бустинги тюнит.

Преподавание - преподаванием, но учиться тоже надо, поэтому, в свою очередь, успел пройти:

- 5 курсов в школе MADE
- 4 курса на Coursera
- 4 курса на Stepik

Было бы время, прошел бы больше🙈

#НеРеклама
#OnlineКурсыТопчик
#Прокачиваю
👍4
Говорят, новый год не начнется, пока не составишь планы!🎅🏻

Выделил несколько пунктов на этот год, связанные с DS, погнали! За этот год в моих планах:

- Отвоевать официальный титул Kaggle мастера🤹‍♂️🏵
- Запустить вебинары совместно с Deep Learning School👨‍🎨
- Довести 3-х людей до медалек на Kaggle🥇🧞‍♂️
- Прижиться и по возможности стать лидом в X5 👷‍♂️🚀
- Выпустить авторский интенсив по DS🎯
- Опубликовать уже наконец-то научную статью🤪

Год будет богат на хакатоны и чемпионаты. Буду фармить и делиться всеми трюками на максималках. Следите!

Всех с наступающим, чемпионы!
🎉6
Не стоит звать меня в команду, если вы не заряженны, как этот парниша 👆🤠🤪

С наступившим!🥳
Понеслась!🏇🎉

#мотивация
#побеждают_только_безумцы
#СберМаркет
👍4
Пару недель назад обещнулся урвать бронзу по ранжированию текстов на Kaggle. Уже начал тюнить ансамбль BERT’тов, но это не мешает участвовать параллельно еще где-то.

Сейчас ворвались в специфичную сореву по рекомендашкам от Сбера на🍋💰Думал, в начале январских с гордостью сделаю пост, как с кентами вошли топ-5, но пока держим топ-8. Осталось еще 5 дней. Долбим баги дальше. 🪲

Надеюсь на топ-3, ибо тиммейты заряженные до бешенства💪Раньше таких не встречал😳. Скоро расскажу, как собирать команду, чтобы брать любые вершины.

А еще рад новому апдейту телеги. Теперь можно оставлять реакции. Пробуйте 😉

#Aleron_фармит
🔥53👍23🤩4👎3😢1
Так, банда, делюсь новостями. Все по порядку:

1) Моя статья на Хабре, написанная утром за час, вошла в топ лучших за сутки. 🏆🏆🏆

2) СберМаркет переполнился техническими багами и продлил дедлайн. Теперь есть еще неделя, чтоб урвать призовые🕹. Тем временем, мы уже ближе к топу🤫. Сейчас топ-6, полет нормальный😤

3) Прошел мой первый боевой день в X5 Group. Атмосфера превзошла все мои ожидания. Очень нравится🔝

4) Помните, я искал видео-карточку, чтобы фармить? 🏎Теперь у меня есть карточка) Причем проблему я решил гениально. Даже платить не пришлось. Как решил, расскажу в конце месяца.
🔥21👍13🎉2
Для меня вчера было шоком узнать, сколько в моём окружении парней из DS, кто пришел в индустрию после 30 лет. 💪🔥

"Вошли в Data Science после 30-ти и не вышли" - Именно так я назову следующую статью с коротким интервью от этих ребят.

Парни реально крутые. Есть джуны, есть даже лиды, а кто-то просто крушит хакатончики один за другим. Над форматом еще подумаю, но выпуск точно выйдет вдохновляющим.🤔

А ты уже вошел в DS?)
👍56🔥65🎉3
Иногда мне кажется, что я не тем занимаюсь, когда вижу такие вакансии с такими вилками.🤷‍♀️

В IT и то часто меньше предлагают.😅 Интересно, это net или gross?🤔

update:
в комментах поправили - это сеньор-танцор
🔥17😁8😢3
Что ж, посмеялись, теперь снова ныряем в тематику.

#Трюк №54 Feature Engineering

Именно эта техника превращает Data Sсience в искусство. Почему? Простой пример. Вот все любят хакатоны по табличкам, потому что они простые - "воткнул бустинг", и, если ты угадал с гиперпараметрами, ты в топе🏆. Однако, если ты мало знаешь про генерацию новых признаков, то твои оппоненты не дадут тебе так просто урвать призовые. 🙅‍♂️ Я проверял😕

Чтоб с успехом рамсИть с индусами лидерами на Kaggle за звание чемпиона, придется освоить эту технику 🧠

Так просто этому научить не смогу, но вот вам пример из моего опыта - классификация временных рядов. Выражу весь смысл техники одной фразой - новые признаки должны как можно более однозначно разделять объекты. Все.

В остальном - порефлексируйте над картинкой к посту или чекайте мою статейку по увеличению точности моделей.
👍28🔥5
🍋🙅‍♂️Упустили лям 😅

📈Скор подняли, но место уронили - топ-7 из 70 участников.

🤔Раньше почти никогда не участвовал в задачах на рекомендательные системы, но за этот хакатон успел отработать пайплайн😎. В следующие разы буду громить уже не с нуля. 🏹

🙈🙊Оказаться в топ-7 не так обидно, как ребятам на топ-2. Ведь призовые Сбер давал только за топ-1. Либо все, либо ничего 👌

Пока разбирался в рекомендашках, узнал столько полезных технических тонкостей в Pandas, LightFM и в целом в Python, что ни капли не пожалел, что сыграл. Такой опыт редко приобретёшь на работе. Будет теперь, о чем вам рассказать

Тима решает🎯
@MaxYaz вывел в топ-10
@Alexcei64 вывел в топ-5
@Aleron75 не вывел в топ-1

P.S. - отдельная сложность была - преодолеть баги платформы. Времени уходило изрядно🤷‍♀️🤦‍♀️🤹‍♂️
🔥33👍11
Можно ли свое хобби соревноваться на чемпионатах превратить в работу? Что?

😎Представьте, Вы на full time фармите Kaggle, вырываетесь в медали, скидываете оппонентов вниз по лидерборду. Жизнь прекрасна. А спустя месяц вам еще и зарплата за это прилетает. А в случае успеха еще и призовые🥳

😳Оказывается, такое есть. Узнал, что есть такая профессия - Kaggle фармить. И не только Kaggle, но любые другие открытые чемпионаты. Где-то даже был успешный кейс от Philips по соревнованию на ускорение MRT с помощью DL, но не нашел сходу ссылки на выступление этих ребят. В целом, примеры можно найти даже на Физтехе, где студенты участвую в чемпионатах, представляя свои лаборатории раскидывают индусов налево и направо за стипу.


🤔Закралась мысль, может, раскачать такую практику в России посильнее?!

🧞‍♂️За какую адекватную зп ты бы фармил на фул тайм? И в скольких чемпионатах смог бы участвовать одновременно?
👍15🔥5
За что можно влюбиться в компанию? За престиж? За зарплату? За комьюнити? За ДМС и курсы? А может за стикеры???🤩

Все мимо. Моя выдала мне сервак с видеокарточками для фарминга. И не а бы какими! А с такими зверями - Tesla v100-SXM2⚙️💣🤯


Ауууффф, ну всеееее…
Две тимы укомплектованы.
Карточки есть.
Экспертизы поднакопил

Теперь будем по выходным фармить на Kaggle, как черти🤿 👨🏻‍🌾🤹‍♂️

🤔P.S.- Все думал, как Бабушкин успевал фармить в X5, вот оно что..
🔥28👍6😁43🎉1
👨‍🚒Настоящие Kaggler'ы обучают модели на неочищенных данных и не говорят - "это только прототип", поэтому что так говорят только закомплексованные и неуверенные в себе аналитики. Если каглер решил, что хочет обучать ансамбль из 1000 моделей на данных с грязью из канавы, а не учить всего одну сильную на почищенных, то он не обязан никому ничего доказывать. Его воля несгибаема, как дамасская сталь, разум чист, как горный хрусталь, а рука быстра, как скорость стохастического градиентного спуска. Каглер всегда уверен в своём выборе и, если он хочет в продакшене модель на необоснованных эвристиках и рандомных фичах, значит, так нужно. Это и отличает сопливого, неуверенного в своей ориентации юнца от настоящего мужчины💪

#😅
🔥42😁15👍4🤩3😱1
#Aleron_фармит

За выходные и немного понедельник наконец-то составили и приоритизировали план + отработали пайплайн модели.🙈

Пока лично сам плетусь где-то в топ-500 из 2 000 участников.

🥇Очень хотим с тимой в голду поэтому цель на оставшиеся две недели стэкнуть 40 разных Bert'ов в единый ансамбль. Уже есть список😶‍🌫️

P.S. - одна только RoBerta-base требует на обучение около 7 часов. Но инференс очень быстрый - 10 минут. По-любому все успеем🙂🤥

#JigSaw
#Аминь
🔥13👍8
Не бойся биться против тех, кто отрабатывал тюнинг тысячи разных моделей. Опасайся того, кто отрабатывал тюнинг одного бустинга, но 1000 раз 😅

#optuna_мама
#catboost_папа
👍303🔥2🤩2😱1