🏆 Data Feeling | AI – Telegram
🏆 Data Feeling | AI
15.9K subscribers
732 photos
222 videos
6 files
470 links
IT предприниматель и препод 🧑‍🏫
ex-ML лидер в Dodo Brands 🦤🍕
Прокачиваю людей в Data Science 🚀
Победитель Stepik Awards 🏆
Kaggle Expert 🤹‍♀️
Создатель @Speakadora_bot @big_llm_course

РКН https://clik.now/datafeeling
Алерон @Ale_v2
Download Telegram
Поучаствовал в съемке бесплатного курса по DS от Мегафон.

Некоторых экспертов раньше смотрел, а теперь вместе с ними вовлекаю новых чемпиончиков в индустрию 🏆

Не реклама, просто рад запуску и промо-ролики курса интересные🚀 Приложу фрагмент:)
Только началась в Москве суета с ограничениями - сразу взял билет и улетел DS’ить удаленно в Сочи ✈️

- Температура +20🌡
- Билет 1.5к
- Локдаун не меньше недели.
- Профилактика выгорания

Чем не повод сделать также?) 😅🤔

В личке готов рассказать, где снять комфортную студию в Сочи за 18к/месяц в 350 метрах от моря 🌅 Не реклама, но знайте, что так можно 🤫

Ниже тизер видео - с таким видом работоспособность подлетает до небес.
трюк №13 - блендинг 🎳

Вот вам мотивация биться командой☘️. Считаешь, что твой score так себе...? А что покажет блендинг с моделями товарищей? На фото мой реальный кейс с хака🧙‍♂️ Это прям магия 🪄📈😅

Почему работает? Зануляется шумовая составляющая прогноза.

P.S - Развлёкся этой ночью на Open Data Battle, наконец-то дошли руки доработать код с 3-м бустингом - catboost'ом 🐈. Очень порадовал)💪 🔥

#чисто_ради_фана
🎃🎃🎃🎃🎃🎃🎃
Продолжаю прокачивать твои навыки в Data Science🎡

Трюк №17 - сдвиги (Data shift)🎭

На валидации метрика высокая, а на тесте внезапно сильно ниже? - Это повод проверить ваши данные на сдвиги. На скрине привел простой пример, как можно отловить сдвиг🕸

Что можно сделать?
- Удалить шифт-фичу совсем
- Проверить выбросы
- RobustScaling, StandScaling*
- Вычесть разницу средних
- data[“feature”].shift(12)

* В этом теме много тонкостей. Поэтому просто обращу внимание на один из способов искать шифты с помощью статистических критериев - не зря же вам на мат.статистике про них рассказывали?! Найдя шифт, придумать что с ним делать уже проще.


На своей практике, использовал шифты как дополнительный повод почистить данные. Смотри скрин.

P.S - Да, критерии нужны не только для А/B тестирования!🚦🏭
👍5
Второй день подвожу итоги и расписываю планы на 2025-й год

Скоро поделюсь, а пока рекомендую вам проинвестировать в самих себя. Как можно раньше усилить себя навыком AI программирования. Начать писать код кратно быстрее!

И вот вам для этого наш экспресс интенсив и промокод HAPPYNEWYEAR (действует до 31 декабря). Записали со Стасом для вас лучшие связки.

👍 Желаю вам в 2025-м году сэкономить сотни часов на написании однотипного кода самому и больше фокусироваться на творческой части.

Придумывайте, фантазируйте и тестируйте - тогда AI хрен вас заменит!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
А ты используешь пайплайны?😎

Или пишешь код отдельно для тренировочных данных и отдельно для тестовых?🙊😱

#ds_memes
Вот рассказываю тут вам про фишки из мира анализа данных, а в жизни сталкиваюсь с вот таким…🤷‍♀️😅

Представляю вашему вниманию сверх-высоко-пропускную систему электронного документооборота 🗃🧨

Врать не стану. Мои документы, потерянные месяц назад, были найдены менее, чем за 10 секунд, под чьей-то чашкой кофе☕️. Очень шустро ⚡️

Сама команда, разработавшая систему, признается, что секрет успеха в Agile техниках и продвинутом использовании Jira, Slask’а и Trello

#CRMотдыхает
#DataEngineering
👍2
Kaggle штука не простая)😅

Поднялся за ночь на 426 мест вверх, но до медали все равно не долетел)☄️🤪

А не запустить ли мне курс - как НЕ выиграть медаль на Kaggle? 🤔🤔

Решил поделиться - потому что иногда важнее набраться опыта, чем урвать призовые.

PS: Сорева по NLP на языке Хинди - вообще ничего не мог прочитать, чисто на метрики опирался. 🙂
PPS: В паре мест надо мной два индуса Kaggle-мастера🤙
Пофармил на этих выходных хакатон от МКБ. Задача интересная, предсказание факта наступления выплаты по гарантии.

Осталась пара дней до конца, но уже все адекватные идеи перебрал пока дошел до топ-5 из 3-x сотен DS'ов 🤺. Оставлю так, посмотрим, подбросит ли меня шафл на привате повыше. 😄🤟

Кто-то писал, что хак для начинающих, но такого не почувствовал. Пока поднимал скор - пришлось попотеть🧠🧠🧠.

#хочумакбук👨‍💻
#ЛикиНЕиспользовал💦

Интересно чем все закончится?
Накидайте идей в комменты 🤪
Неожиданно много людей написало насчет идей по хаку МКБ. 😳 Что так много людей хотят себе айфон или макбук?😅

Из того что услышал, мало кто вообще пытался дополнительные признаки генерировать 😳😳. Поэтому решил поделится одним успешным кейсом, который на мой взгляд хорошо разделяет данные по таргету. 🧠🚀

Расскажу что это и как я придумал этот признак через пару дней)

#FeatureEngineering на максималках
👍1
За 15 минут до конца выхожу в топ-3

Друзья, это для вас!❤️‍🔥

#МКБ
Братцы, одно скажу!
Цените матерей и максимально стабилизируйте свои решения, чтобы шафлило только вверх ☝️😄

Итог: топ-2 на привате🤟😱

#всемфарту🤞
#МКБ
👍1
Выкладываю своё решение по хакатону от МКБ на топ-2. Забирайте на разбор)🍿🎬

- Потрачено времени - 4 дня (full time)
- Сгенерировано 210 новых признаков🚵
- Только 10 новых признаков дают резкий прирост в точности
- Финальная модель - ансамбль двух катбустов🐈 🐈
- Результат - 2й на привате🏆

Из ощущений о кейсе:
- 70% успеха - это новые признаки / работа с данными
- 20% успеха - это работа с моделью / коддинг
- 10% понимание доменной области / или гугление

Ссылка на GitHub: github.com/a-milenkin/MKB_hack
Отдельными постами расскажу про фишки/трюки, которые сработали.

#two_cats_to_top
#забирай_и_побеждай
🔥3
#Трюк № 35 - стабилизация решений🛹⚖️

Представьте такую ситуацию, вы потратили уйму времени, чтобы занять лидирующую позицию в топе лидерборда. А после оценки вашей модели на приватной выборке - ваш результат уходит в закат 🌅, а точнее слетает на N позиций вниз🛬. Что вы чувствуете? 🤷‍♀️😕🌡

Что ж, сейчас дядя Саша расскажет одну Kaggle'скую фишку, как можно взять шафл под свой контроль и скидывать вниз по лидерборду всех, кто плохо пристегнулся💺.

Сама процедура прозвучит как абсурд, как бессмысленная операция, как бред больного, но метод на моей практике показал себя хорошо. (Пруф эффективности трюка на скрине ниже)

Идея трюка такая:
1 - Берем модель, фиксируем random_state/seed модели, обучаем, сохраняем.
2 - Создаем новую точно такую же модель, фиксируем НОВЫЙ random_state, обучаем, сохраняем.
3 - Делаем так несколько раз .
4 - Далее просто усредняем прогнозы полученных моделей с разными seed'ами. Все🙅‍♂️

Сама точность прогноза обычно не отличается. Она даже может быть больше/меньше, чем без усреднения.
Но преимущество в том, что такой ответ более стабильный по множеству причин. Эту идею часто используют не только в классическом ML, но даже в CV, NLP, GAN'ах.

P.S. - Если ваша модель детерминированная (linear regression), то можно зайти с другой стороны. Берем K-фолдное разбиение и повторяем его несколько раз при разных random_state'ах. Результаты усредняем.

#теперь_фарт_в_твоей_команде
👍5
Картинка к посту выше
#Трюк № 35
2
Заметил, что вы активно откликаетесь на реальные примеры побед/успехов. Даже пишите в личку или просто поддерживаете в комментариях. Спасибо.

Мне нравится делиться тем, как можно "хакнуть" какой-нибудь чемпионат по DS/ML. Однако, я рассказываю только про итоги, показываю уже рабочее чистое решение, не раскрывая при этом того, как прихожу к таким результатам. Хотя успеваю проверить море гипотез, при этом 95% из них не выстреливает. Вот это и есть реальный соревновательный анализ данных.

Что ж, настало время поднять ставки, рискнуть и показать этот процесс со старта.
Говорить о будущем успехе глупо и опрометчиво - никогда так не делаю, но именно в этот раз - Я изменю формат.

> Я обещаю выйти минимум в топ-10%🥉в свежем соревновании по NLP на Kaggle: 🔥🔥🔥🔥🔥 www.kaggle.com/c/jigsaw-toxic-severity-rating

Задача: ранжирование текстов по уровню токсичности. Впереди два месяца и сотни способов не выполнить своё обещание.

Эта серия постов будет носить тег: #Aleron_фармит🤹‍♂️

Как думаете, провалю? 🙂
👍3🔥1
Зачем вам в IT? Почему именно анализ данных?? 🤷‍♀️ Высокие зарплаты? Возможность удаленки с Бали? 🌴

Мой личный ответ - все ради соревновательной атмосферы анализа данных🏎🏁🏇

Давно мечтал посетить Новосибирск, и вот уже на пару с коллегой прокачиваем новосибирских талантливых школьников в ML. Несколько дней вели практикумы. В финале дали задачку на классификацию картинок с лидербордом. Все в лучших традициях Kaggle💪😉.
Вы бы знали, что делает с человеком желание поднять скор на борде и обойти других😹. Море эмоций и буря идей тут же вырываются на волю😈🔥

Инсайд: не пытайтесь раскачать человека словами, просто разожгите в нем любопытство, а там уже этот поезд не остановить 🚝. Так сложные концепции впрах разбиваются о бетонную стену азарта. 👊

P.S - мой не самый слабый бейзлайн был побит школьниками меньше, чем за час💥😳👏
#Новосибирск -20🌡
👍2🔥2