NEW BOT Телеграм, страница

Запрети мне псевдолейблить

Из интересного, что удалось вынести для ICR, это разобраться какие бывают оверсемплинги для табличек. По ссылке оригинальный пост Ивана Исаева, с которым решали ICR, который я переписываю немножко сюда + дополняю своими мыслями.

Оверсемплинг стоит попрбовать при соблюдении двух условий:
1. У вас не слишком большой датасет
2. Сэмплов одного класса явно больше, чем другого, но не экстримально. Например соотношение от 19:1 к 5:1.

Оба условия важны:
Если нарушается первое- вы скорее всего решаете RTB и тут надо просо из бесконечного стрима положить в модель больше информации, а проблемой вероятностей займется калибровка уверенности. Обязательно почитайте пост в блоге Дьяконова, там очень интересно.
Если нарушается второе, то вам либо можно особо не париться, либо париться особо. Например подменять задачу с классификации на детекцию аномалий/сужать задачу/играть в искуственное расширение данных другими способами. Например играть в задачу 'разладки'. К пограничному случаю тут относится например проблема поиска фрода, где может и одновременно не работать классификация.

Например в ICR положительным классом было наличие одной из трех болезней. Все кто здоров- те нолики, прочие- единички.
A 509 объектов (здоровые)
B 61 samples (болезнь B )
G 29 samples (болезнь G)
D 18 samples (болезнь D)

На вскидку можно оверсемплить уже несколькими способами:
Эквивалентный баланс
Баланс положительных по наибольшему положительному классу
Баланс между негативным и позитивным классами
A 509 или 509 или 509
B 509 169 169
G 509 169 120
D 509 169 80

С постановкой задачи вроде разобрались, чуть попозже обсудим, как можно решать умнее. #ICR

Анализ малых данных

Проблема калибровки уверенности

Удивительно, но нигде нет хорошей обзорной работы по всем методам калибровки модели — процесса в результате которого «чёрные ящики» не просто качественно решают задачу классификации, но ещё и…

👍9🤡2👨‍💻1

2.53K viewsedited 16:29

Запрети мне псевдолейблить

😁8❤‍🔥1🤣1

1.89K views19:21

Запрети мне псевдолейблить

Рубрика "изи контрибьюшн"

Пока ездил, посмотрел синтаксис Rust, собрался с силами и законтрибьютил в величайшую Rust-библиотеку для анализа табличных данных за последнюю тысячу лет (переименовал функцию в rust бекенде и в питонической обвязке) и страшно собой доволен. Теперь буду вам продавать использование МОЕЙ БИБЛИОТЕКИ.

Вообще во многих популярных инструментах есть задачи, которые можно за пару вечеров собрать и потом всю жизнь гордиться, как ты делал мир лучше. Я бы предложил для легкого старта портировать пару лоссов в CatBoost с CPU на GPU. Там всего лишь ванильно с плюсов переписать на CUDA код и распараллелить под векторные вычисления. Ну и догадаться, на что нужно абсолютные пути яндексовых серваков поменять, чтобы скомпиллить этого франкенштейна. Тут любой профан справится

Кстати, а есть уже какой-то бустинг, который на Rust написали? :0

GitHub

depr(python, rust!): Rename `count_match` to `count_matches` by I8dNLo · Pull Request #11028 · pola-rs/polars

Closes #10907
Renamed all occurrences of count_match to count_matches. Also rename CountMatch to CountMatches as mentioned in #10907

😁6🥰1🕊1

1.91K viewsedited 10:01

Запрети мне псевдолейблить

Мой славный гитхаб-лик на главной Polars, попирающий сиянием Русов баги

👍6

1.84K viewsedited 10:01

Запрети мне псевдолейблить

#ICR #таблицы #аугментация
Попробуем короткий формат?

Первый из небанальных кандидатов для апсемплинга- Gaussian Noise Up-sampling. Идея простая:
0. Выбираем параметры нормального распределения для каждой фичи
1. Из класса, которого меньше, выбираем объект
2. Добавляем к его признакам случайный нормальный шум
3. Добавляем получившийся синтетический объект в датасет для обучения (оригинальные объекты класса мы туда изначально не добавляем)

Теоретически работать должно лучше обычного апсемплинга, потому что объекты разные, их больше и они 'аугментированные'. В statistical learning где-то даже есть теоретический результат: если параметры шума аугментации меньше или сравнимы с реальным шумом измерения признака, то модель будет асимптотически лучше оценивать истинные параметры. Тут важно помнить, что семлируем мы с повторениями- это уменьшает итоговую дисперсию оценки параметров. Для линейных моделей даже доказательство есть.

Казалось бы, а зачем ты, Дима, про линейные модели рассказываешь? Мы же бодрые-молодые датасентисты из 2018, мы Catboost учим и стакаем с LightGBM. Дело в том, что теоретические трюки, улучшающие линейные модели обычно помогают и более сложным моделям работать лучше. Обычно.

Из плюсов:
1. Может быть лучше, чем обычные веса для классов, если правильно готовить параметры распределения шума для признаков
2. Работает для регрессии
3. Апсемплинг с повторениями позволяет уменьшить влияние выбросов

Проблемы у такого подхода тоже очевидные:
1. Параметры истинного распределения ошибки измерения признаков нам никто не даст ->
2. Параметры надо подбирать
3. То, что текущие параметры дают модель, которая работает на валидации лучше, совсем не значит, что мы их лучше подобрали, эти параметры тоже легко оверфитнуть
4. Не все ошибки измерения признаков распределены нормально (вспомним категориалки)
5. С пропущенными значениями тоже совершенно не ясно, что делать
6. Мы искусственно раздуваем данные, что замедляет пайплайн

🔥7💩2🐳2👍1

2.42K viewsedited 09:03

Запрети мне псевдолейблить

1.75K views09:03

Запрети мне псевдолейблить

#ICR #SMOTE
Другой возможный подход к оверсемплингу данных для минорного класса это SMOTE: synthetic minority over-sampling technique

Тут экспериментируем уже с тем, как аугментировать данные.

Вместо добавления случайного шума, мы делаем чуть более хитрую процедуру:
1. Выбираем объект из минорного класса с повторениями
2. Находим N его ближайших соседей
3. Между признаками выбранного объекта и его соседями берем линейную комбинацию и получившийся пример кладем в наш синтетический датасет
4. (Опционально) Андерсемплим мажорный класс

Из плюсов (кроме уже упомянутых):
0. Всего один параметр
1. Может быть лучше, чем обычные веса для классов, если правильно подобрать количество соседей
2. Не так зависим от нормального распределения

Из ключевых минусов:
1. Не ясно, что делать с категориалками
2. Все еще надо подбирать параметры (хотя и проще)
3. Аутлаер может сгенерировать кучу очень 'интересных семплов'

👍5🤮2🏆1

1.89K viewsedited 15:03

Запрети мне псевдолейблить

#ICR
Идея оверсемплинга используя простые модели получила развитие и в другую сторону:
GMOTE: Gaussian based minority oversampling technique for imbalanced classification adapting tail probability of outliers

Идея:
1. Кластеризуем наш датасет с помощью гаусовских смесей (EM)
2. С помощью измерения расстояния Махаланобиса (сейчас объясню), считаем, является ли пример выбросом
3. Снова кластеризуем с помощью EM
4. Семплируем из оставшихся кластеров с повторениями

Расстояние Махаланобиса- мера для того, чтобы учитывая корреляцию и дисперсию признаков, померять похожесть
D(x,y) - расстояние Махаланобиса между точками xx и yy.
x и y - векторы признаков (наблюдения).
S ^−1 - обратная ковариационная матрица, которая учитывает корреляции между признаками и дисперсии каждого признака. Вычисляется на основе данных.

Каждый кластер семплируем пропорциональное его размеру. Каждый семпл внутри кластера семплируем обратно пропорционально расстоянию от центра.
Количество кластеров кстати выбирается автоматически, по BIC (а зачем еще нужны EM, да?)

Из плюсов:
1. Дополнительных параметров для оптимизации не прибалвяется
2. Избавляемся как минимум от части выбросов
3. Можем оценивать правдоподобие для разных моделей

Из минусов:
1. Проблмеа категориалок
2. EM тоже могут оверфитнуться
3. Никак не аугментируем данные

👍6😁2💩2

2.51K views13:03

Запрети мне псевдолейблить

Тут новая фича вышла:
1. Обновляем телеграмм
2. Бустим канал по ссылке: https://news.1rj.ru/str/pseudolabeling?boost
3. Получаем благословление до самого конца большой игры

💩4🤮1

2.85K viewsedited 14:31

Запрети мне псевдолейблить

Читаю статью про 'новый' алгоритм для ускорения Jacobi SVD, и такой 'что-то не так. Что-то неправильно. Что-то странно...'
А потом скипнул первый параграф и как понял, в чем дело было

🤣12🫡6🗿1

2.55K viewsedited 14:15

Запрети мне псевдолейблить

Постепенно возвращаюсь к Kaggle-кранчам и набросал ядро для Open-Problems Single-Cell Pertrubation
Говорят, если его немножко докрутить (в коде есть подсказка) и сблендить с текущими популярными блендами, то можно влететь в медали

Kaggle

Kfold simple NN refactored

Explore and run machine learning code with Kaggle Notebooks | Using data from Open Problems – Single-Cell Perturbations

🔥10👍1

1.88K viewsedited 07:59

Запрети мне псевдолейблить

Стало ли фармить кагл легче, чем в 2018? 🤔

Поспорил с Криптовалерием насчет того, сложнее или проще стало фармить каггл сейчас, чем годами ранее. Спор был горячий и чуть не закончился поломанными ногами, но в споре родилась истина.

Для того, чтобы решать вопрос датадривенно, был использован Google Sheets. Какая датадривенность и без экселя? 📊
Ссылка на таблицу

Я прошелся по вебархиву за разные года и перенес данные в эксель, руками подсчитав количество кгм/мастеров/экспертов и построив базовые графики. Перейдем же к ним!

На первом графике видно, что число мастеров/экспертов/кгм исчезающе медленно прирастает по сравнению с общим числом пользователей. 🔽

График второй:
График нормированных производных по годам для конкретных тайтлов. Придумал Валерий, так что expert approved
Например, в 2018 новых экспертов стало сильно больше, а вот количество контрибьюторов осталось примерно прежним. 📈

📈

Вот отсюда и можно сделать вывод: в 2018 стать экспертом было проще, чем в 2022. Потому что процентный прирост относительно прошлого года выше. С другой стороны, стать мастером из эксперта стало чуть проще. Но суммарно прорваться из новайсов в мастера стало все же сложнее, чем в 2018. Из двух графиков можно сделать вывод: каглить становится суммарно конкуретнее!

И да, в 2018 Кагл поменял политику и перебанил/даунгрейднул кучу работяг из контрибьюторов в новайсов. А еще не смотрим на 2023 год, он не полный, но крайне многообещающий.

Please open Telegram to view this post

VIEW IN TELEGRAM

Google Docs

Спорю о каггле

🔥12👍4😍3👏2❤1

1.83K views11:04

Запрети мне псевдолейблить

График первый

🔥9

2.05K views11:04

Запрети мне псевдолейблить

График второй

🔥9

2.24K views11:04

Запрети мне псевдолейблить

Через несколько часов закончится Open Problems, так что в следующую пятницу будет разбор соревы

🔥5

1.73K viewsedited 18:36

Запрети мне псевдолейблить

Если всех гусей вырежут- может и золото поднимем

UPD: первого уже вырезали, осталось 7

🔥18🙏1🆒1

1.92K viewsedited 00:13

Запрети мне псевдолейблить

Ну что ты будешь делать!

😢23😭20

1.7K views20:09

Запрети мне псевдолейблить

Коротенько расскажу про соревнование и решения на стриме у Алерона сегодня

1.48K views11:37

Запрети мне псевдолейблить

Forwarded from 🏄 Соревновательный Data Science | Kaggle | Чемпионаты

Привет, чемпионы! 🏆

📣 Завтра, 8 декабря в 17:00, проведём ещё один стрим.

Расскажем про 3 соревы:
1) Дима @dimitriy_rudenko расскажет, как участвовал в Open Porblems, про топовые находки победителей, с фокусом на том, что можно переиспользовать. Канал Димы.
2) Артём @cosheimil расскажет про 2 соревы: как взял🥉 на LWP и про идущую сореву Enefit.

🔥Тем кто пропустил стрим прошлой пятницы советуем посмотреть. Мы там в начале уже затронули Enefit.

Помните:
🧑🏻‍💻 пишите в комментах про какие соревы вам интересно послушать в следующие пятницы!
🕵🏻‍♂️ вы всегда можете поделиться обзором соревы, в которую планируете залететь или той в которой уже поучаствовали. Пишите в лс @dfeeler ⚡️

🤡2❤1👎1🔥1🤮1👀11

1.83K views11:37

Запрети мне псевдолейблить

Hello there!

😁5🍓2💋111

1.74K views12:44

Запрети мне псевдолейблить

Написал простенький кернел для UBC:
Все картинки нарисовал
Для всех картинок посчитал соотношения сторон к тамбнейлам
Отпечатал классы для каждой картинки

Например тут можно увидеть, что некоторые картиники- это снимок в двух срезах, а некоторые в трех. Планирую посмотреть вообще все картинки из трейна, мб там что-то совершенно великолепное найдется.

Наслаждайтесь

Kaggle

All Kaggle Images printed

Explore and run machine learning code with Kaggle Notebooks | Using data from UBC Ovarian Cancer Subtype Classification and Outlier Detection (UBC-OCEAN)

🔥4🕊2👍111

1.7K viewsedited 17:09

About

Blog

Apps

Platform