🏆 Data Feeling | AI – Telegram
🏆 Data Feeling | AI
15.9K subscribers
732 photos
222 videos
6 files
469 links
IT предприниматель и препод 🧑‍🏫
ex-ML лидер в Dodo Brands 🦤🍕
Прокачиваю людей в Data Science 🚀
Победитель Stepik Awards 🏆
Kaggle Expert 🤹‍♀️
Создатель @Speakadora_bot @big_llm_course

РКН https://clik.now/datafeeling
Алерон @Ale_v2
Download Telegram
Вы просили, я организовал.

Инсайдерский вебинар по текущей задаче на Kaggle.

Залетайте, расскажу пару идей и немного за биологию поболтаем. Подниму ваши шансы на фоне остальный.

https://us02web.zoom.us/j/84090762014?pwd=TFl5cUk4MGkzUzhmOTdZNWJJRzRoUT09

Meeting Passcode: 772480

Update:
Если этот пост наберет 50 огоньков, то я выложу запись.

Update 2:
👨‍🔬 Алерон Миленькин "Introduction to Kaggle competition Novozymes Enzyme Stability Prediction"
📹 Video: https://youtu.be/-rRosSQtP7Y
✔️ Abstract: https://news.1rj.ru/str/sberlogabig/206
🔥98👍43👎2😁2
Кого только не встретишь в Таиланде?!

🏄‍♀️ С аппетитом посерфили с Женей и кайфово поболтали за мир DS/ML с высоты тим-лида.

☝️Кстати, Женя матерый competitive data scientist. Заметил его когда-то в топе соревнований на Boosters. (Хотя на Kaggle его так и не уговорил) А еще у Жени есть классный канал, где он делится опытом решаемых задач в Альфе с помощью ML’я.

Канал прикольный, но не помню ссылку. Подскажите?

🎙Если в Бангкоке встретимся на новый год, то запишем подкаст. 🎥📝

#физтехи_повсюду
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32👍12🎉4👎1
Раздаю свои долги перед наступающим годом.

📢 Разбор kaggle-соревнования "American Express" в гостях у MISIS AI Lab

Вместе с ребятами из MISIS AI Lab, у которых сейчас идет открытый курс по ML, решили провести онлайн разбор решения kaggle-задачи на предсказанию дефолтов по кредиту, о чем кстати недавно выходила статья на хабре

Поговорим о том, какие методы и техники обычно хороши при решении, казалось бы, обычных табличных соревнований. Обсудим методы стабилизации ML моделей. Возможно разберем что-то из текущих соревнований на Kaggle.

Так же разберемся, что за опенсорс курсы делают эти ребята из МИСИС.

Сегодня, 12 декабря, в 18:00 встречаемся на занятии. Подключение к лекции по ссылке → link
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥9👎5
🏆 Data Feeling | AI
👨🏻‍🌾Как помните, 40 марафонцев фармят сейчас текущую сореву на Kaggle. Финиш уже завтра. 🌊Все было гладко пока масло в огонь не подлили публичные решения, одно из которых занимает сейчас топ-5 на лидерборде. Это какие-то лютые блендинги из решений, опубликованных…
This media is not supported in your browser
VIEW IN TELEGRAM
Придумал очень простую интуитивную аналогию, чтоб объяснить почему смешивание (блендинг) моделей работает.

Есть у вас две модели. Пусть это не модели, а две аудитории двух блогеров. Решено сделать блендинг (кросс-постинг), чтоб максимально увеличить суммарную аудиторию (точность).

😵‍💫 Если это две полностью совпадающие аудитории (одни и те же люди), то от такой взаимной рекламы у вас не будет прироста ни в одном канале. В этом вообще нет смысла.

🤔 А вот если аудитории вообще никак не пересекаются (диверсифицированные модели), но тематики схожие, то при смешивании, вероятность, что уникальные люди из одного канала перейдут в другой будет сильно выше.

🍽 При смешивании ответов нескольких моделей механика полностью аналогична. Это и снижении одновременной ошибки объясняет и баес от допущений каждой из моделей и так далее.

🎓 Это я недавно так объяснял, в чем понт смешивать модели и какие модели вообще полезно смешивать. Быстро дошло.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29👎154🔥4
Решил, что весь год усердно трудился и в качестве подарка накуплю себе разных тренингов и мини-курсов на 100к.

Технические навыки подразгоню, англ подкачаю и без физ нагрузки не останусь. Коучей и психологов всяких не хочу, хочу больше во что-нибудь прикладное. Аля «Интенсив по ML System Design» или «Недельное нон-стоп аудирование на английском». Что-то похожее у меня уже было в этом году по MLOps. А еще я успел пройти курс по «Съемке с коптера»

🎅🎄В общем, надо уметь себя порадовать хотя бы на НГ. Поэтому пишу это сюда, чтоб точно не смог потом отмазаться перед самим собой, да и с вами поделиться потом полным чеклистом ништяков.

И вообще, скоро буду подводить итоги года. Сейчас все силы бросил на борьбу за золото на Kaggle. Ензимы оказались невероятно интересными. Это тянет на несколько сочных статей на Хабре. Осталось только подняться еще ~40 мест 😅

Ждите вестей и напишите в комменты, что вы себе подарили? Хочу варианты поизучать
👍57🔥11
Встретился сегодня с земляком из Сочи. Тот сказал интересную фразу: "Я твой канал почитал, на ютубе тебя послушал. Вообще ни слова не понял, но понял, что ты чем-то из IT сферы занимаешься"

Не знаю почему, но мне было очень смешно. А еще приятно, что Вы меня все понимаете) Хотя бы иногда!

Ладно родители крестились, когда мои рабочие разговоры слышали, но от ровесников из digital мира все равно похожее забавляет. Живете в разных мирах и разных информационных пузырях.

Кстати, с людьми не из IT, как правило я не разговариваю, ибо зачем при разговоре я не использую терминологию совсем. Четко слежу за тем, чтоб собеседнику было легко меня понимать. Душнил в мире и без того хватает, таких, кто не может от профессиональных деформаций оправиться, когда в мир "обычных смертных" спускается.
👍54🔥14👎5😁32
Меня периодически спрашивают, а что нужно, чтоб выигрывать на Kaggle и прочих DS чемпионатах?!

🎰 Вопрос не однозначный, но вот недавно увидел критерии молодых ребят, чтоб попасть к ним в команду по фармингу Kaggle и тп.

👨‍🔧 Проверьте себя. Интересный чек-лит.
На пункте про "медвежонка" прям орнул. Не хватает еще фрикаделек на Lingualeo 1k+
😁63🔥28👍5👎2🤔1
Уперлись с командой в очень необычный кейс ...

Вот у нас есть три предобученные модели, на тесте эти модели дают метрику 0.90, 0.80 и 0.70. (чем больше, тем лучше)

Мы решили построить и отвалидировать ансамбль из трех моделей на трейне. Подали прогнозы моделей как фичи + дополнительные фичи в бустинг. Как итог, бустинг отранжировал выходы моделей по важности абсолютно противоположно тесту. Более того, на тесте ансамбль дал значение метрики r ~ 0.75 😳 Хотя если тупо усреднить с весами, дает >0.9

Вот думаем, что делать) Как смешивать? Как выбить мета моделью больше 0.9? Метрика на тесте - корреляция Спирмена.

Из идей, навесить на фичи веса, чтоб бустинг через "не хочу" ранжировал фичи в соответствии с информацией с теста.

#Kaggle
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🏆5
👆В целом, это верный путь почти в любой сфере. Если сильно надо - бьешь в одну точку, пока не треснет.

😳 Кстати, спасибо за ваши ответы вчера. Мы все внимательно прочитали и нашли пару идей для себя. Мне понравились варианты с Adversarial Validation и со смешиванием моделей заранее в единую фичу с весами пропорционально известной точности (корреляции) на тесте. Последнее, кажется, может докинуть. Надеюсь, вам тоже было полезно подумать над кейсом.

💪 Аудитория у меня, конечно, заряженная
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥38
🏆 Взобраться в топ Kaggle без ML

⛔️ Узнал необычный “трюк” по соревнованиям, где метрика - корреляция.

💥 Накидываете на свой ответ шум и скор с ненулевой вероятностью подрастает. Если скор подрос, накидываете еще шум и так пока не станете медалистом. Оказывается, нужно не так много попыток, чтоб зайти в золото и обессмыслить лидерборд.

🤔 Вопрос, можно ли так выиграть на привате?

А пока на борде идет неразбериха, мы продолжаем с тиммейтами валидировать модели в текущем чемпионате. Радует, что локальная валидация коррелирует с бордом.

Еще один, но уже нормальный трюк, который внезапно помог - это учить ансамбль моделей на тех данных, на которых базовые модели имеют такую же точность как и на тесте. То есть выбираете «легкие» для модели объекты. Это аля такой мета-лернинг.

🤪 Очень парадоксально, но в этом чемпионате можно проверять модели сперва на тесте, а только потом уже валидировать на трейне

#kaggle
#Novozymes
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16😁5🔥4
Выиграть 100к или как написать лучшую статью на Хабре.

😐 Год уходит. Подводить итоги буду завтра, а сейчас просто хочу поделиться небольшой радостью. Выиграл в конкурсе авторов!

😄 За этот год я написал 8 статей на Хабре. Почти каждая была в топе лучших среди недели. Три из них висели в топе лучших за месяц. Про массовые репосты другими группами вообще молчу. А одна оказалась в топе всех топов, закинув меня в топ-1 на Хабре и, как выяснилось сегодня, принесла мне возможность покрыть расходы на идею с курсами на 100к, о которой писал выше.

🤖 Кстати, перед публикацией той статьи у меня не было в мыслях выставлять ее на конкурс, я просто классно провел время играя с новой игрушкой и фантазируя над альтернативами для лого red_mad_robot. На момент завершения статьи, у меня встал выбор, добавить в статью рекламу и получить ~3-5к или просто публикануть, включив в конкурс.

🍽 Чтоб выиграть, мне надо было побороть хотя бы победителя прошлых лет. Спарсив рейтинги других статей Хабра и сравнив со своими - понял, что мат ожидание выигрыша трое кратно выше, чем просто разовая плата. Как видите, оценка была хорошей.

😳 Знаете почему я вообще начал писать свои статьи? Все от дури! Однажды ночью мою голову просто разрывал поток мыслей и идей, не дающих спать.

😵‍💫 Не переселив желание поделиться, я просто сел за чистый ворд и начала писать, облегчая так свой "приступ". Так родилась моя первая статья, которую по фану решил заслать на Хабр утром. Тот день был моим первым рабочим днем в Х5.

🤫 Мне очень нравится делиться/писать про штуки, которыми редко кто стал бы делиться. Всякий технический схематоз - это прям мое любимое, то за что я полюбил Хабр.

👻 Скучно писать что-то, про что писали уже до тебя, а вот накропать что-то такое от чего читатель сказал бы: "Вау, это надо запомнить" - это бесценно.

#Хабр #Aleron
#red_mad_robot #ruvds
@datafeeling
Please open Telegram to view this post
VIEW IN TELEGRAM
👍77🔥20🏆52👎1
🏆 Data Feeling | AI
Говорят, новый год не начнется, пока не составишь планы!🎅🏻 Выделил несколько пунктов на этот год, связанные с DS, погнали! За этот год в моих планах: - Отвоевать официальный титул Kaggle мастера🤹‍♂️🏵 - Запустить вебинары совместно с Deep Learning School👨‍🎨
Традиционно подвожу итоги года и ставлю новые цели 🎯

⛔️ Титул Kaggle мастера - эх, не хватило золотой медали, что ж - стало быть за 2023-й год надо добить уже до Kaggle Grand мастера
Вебинары совместно с Deep Learning School - тут я постарался и внес свой вклад в несколько модулей. Про новый запуски DLS слышали многие.
Довести 3-х людей до медалек на Kaggle - я довел 7-х человек.
⛔️ Стать лидом в X5 - не вышло, но я получил за год большой опыт управления технической командой из 3-х человек.
🟡 Выпустить авторский интенсив по DS - анонса не было, но уже в январе мы его запустим.
Опубликовать научную статью - за этот код я вошел в авторство двух научных статей, где закрывал анализ биологических данных.

Не было моей целью, но горжусь, что под моим началом запустились 7 интересных data блогеров. Приятно было повлиять так сильно на индустрию анализа данных. Это круто!

💪 Что сделаю за 2023-й год?
🌟 Kaggle Grand Master
🌟 Выведу в медали на Kaggle 30 человек
🌟 Сдам IELTS на 8 баллов
🌟 Проведу через свой курс по соревновательному анализу данных 300 человек.
🌟 Нарешаю 250 LeetCode задачек
🌟 Выведу свой пет-проект по аналитике на самоокупаемость
🌟 Пройду и засниму собеседование в МААНГ-like компанию
🌟 Напишу на Хабр 25 новых статей.
🌟 10К подписчиков @datafeeling

Год будет драйвовее предыдущего. Всех с наступающим, мои чемпионы!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥91👍266👎2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥54👍16🎉97👎1
🏆 Data Feeling | AI
Уперлись с командой в очень необычный кейс ... Вот у нас есть три предобученные модели, на тесте эти модели дают метрику 0.90, 0.80 и 0.70. (чем больше, тем лучше) Мы решили построить и отвалидировать ансамбль из трех моделей на трейне. Подали прогнозы моделей…
А ларчик просто открывался...

🧑‍💻 Пока мы с вами накидывали идеи, как разрешить парадокс с падением качества на тесте, выяснилось, что киллер фичи для теста брались просто-напросто со сдвигом.

📈 Так как в чемпионате Novozymes в качестве метрики качества используется корреляция Спирмена, то имеет смысл заменять числа в ответе на их ранги (scipy.rankdata()). Так вот дело было в том, что для прогноза мы тупо взяли не оригинал фичи, а ее ранжированное значение. Хотя учились на оригинальных чиселках.

🧠 Как догадался? Тупо решил проверить руками разницу распределений фичей на тесте и трейне. Далее заметил, что максимальное значении некоторых фич на тесте совпадает с числом строк в тесте. Совпадение?! Нет!- Подумал я. Overall, проводить тест на data quality бывает полезно. Иначе десткие факапы неизбежны.

😐 И конечно не доверяйте своим сокомандникам полностью) Всех всегда надо проверять! Кто-то постоянно норовит слить победу команды своей невнимательностью. То id-ники дублированные пришлют, то порядок неверный намутят, то фичи с ошибками, а могут тупо пустые значения тебе прислать, не проверив корректность работы скриптов.🤹‍♀️ Бывают иногда такие баги, что я даже теряюсь в догадках, как такое расхлебать порой.

Как вывозить такое? Respect, but not suspect! Спокойно указывать на ошибки и прививать тиммейтам полезные практики, наблюдая, как они растут и тащат все лучше и лучше.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51👎3🤔3🔥2😁2
Традиционно, ставьте 👍 или 👎, если верите или не верите, что подкинет вверх в сореве по энзимам.

Рискнул выбрать 1 сабмит на золото🥇, второй на серебро🥈. Почти для каждого сабмита свои риски. Утром посмотрим, что зайдет.

Кстати, в сабмите на серебро порядка 20 моделей. Угадайте, сколько в золоте?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67👎20🔥4😁2
🏆 Data Feeling | AI
Традиционно, ставьте 👍 или 👎, если верите или не верите, что подкинет вверх в сореве по энзимам. Рискнул выбрать 1 сабмит на золото🥇, второй на серебро🥈. Почти для каждого сабмита свои риски. Утром посмотрим, что зайдет. Кстати, в сабмите на серебро порядка…
Бум-с 😅🫣🥹

Получается, я как Икар. Приблизился к солнцу слишком близко и обжог крылья…

Рандом лютейший. Паблик лб вообще не отражал истинную картину. Посидел пару часов в золоте и отлетел 😑
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔21🔥5👍2👎2🎉2😁1
🏆 Data Feeling | AI
Бум-с 😅🫣🥹 Получается, я как Икар. Приблизился к солнцу слишком близко и обжог крылья… Рандом лютейший. Паблик лб вообще не отражал истинную картину. Посидел пару часов в золоте и отлетел 😑
Был в золоте. Слетел. Можно ли было что-то сделать? Попытался ответить себе на этот вопрос и понял, что нет.

🧐 У нас в решениях оказался сабмит на золото🥇, но мы его не выбрали. Мог ли я догадаться его выбрать? Едва ли...

👎 Лучшие решения по локальной валидации подлетели вверх, но не долетели даже до медалей.

👎 Лучшие решения по паблик борду отлетели на 1000 позиций вниз.

🤩 Окей, есть несколько не моих решений, которые хорошо коррелировали с приватным скором. Можно было включить эти решения в бленд. Однако, вместо этого мы включили эти решения как фичи для стекинга, что идейно было даже лучше. Более того, полученную модель сблендили с другими сильными моделями.

🧑‍💻 В общем, возможно стекинг на основе сильных моделей с последующим блендингом этих же самых моделей с весами по скору с теста мог спасти.

⚖️ Однако, это же надо было угадать какие модели смешивать... Получается, лучшим способом выиграть было - остановиться две недели назад =)

🌅 В общем, ни о чем не жалею. Да, потратили много времени всей командой. Зато в моем курсе теперь появится модуль с парсингом данных из внешних сервисом и работой с разными API. Этот навык тащил.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58😁3👎1
🏆 Data Feeling | AI
Квартира в центре Отчаялся искать, а сроки горят, поэтому пользуясь своим положением хочу оперативно среди своих найти жильцов в квартиру на Октябрьской, в которой прожил с кайфом с начала лета. Коротко: На полгода-год сдается оборудованная для комфортного…
Снова пользуюсь своим положением во благо. Извините.

В общем, нашел тогда студента, которому сдал квартиру. А он спустя три месяца уехал из России внезапно. Кстати, в Таиланд 😅

В общем, снова ищу человека, кому пересдам квартиру со сладкими условиями.

Пишите в лс @Aleron75

БЕЗ ЗАЛОГА и КОМИССИИ


🍏 Закрыто
🔥16👎6👍3😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥55🎉30👍7👎21