#ICR
Идея оверсемплинга используя простые модели получила развитие и в другую сторону:
GMOTE: Gaussian based minority oversampling technique for imbalanced classification adapting tail probability of outliers
Идея:
1. Кластеризуем наш датасет с помощью гаусовских смесей (EM)
2. С помощью измерения расстояния Махаланобиса (сейчас объясню), считаем, является ли пример выбросом
3. Снова кластеризуем с помощью EM
4. Семплируем из оставшихся кластеров с повторениями
Расстояние Махаланобиса- мера для того, чтобы учитывая корреляцию и дисперсию признаков, померять похожесть
D(x,y) - расстояние Махаланобиса между точками xx и yy.
x и y - векторы признаков (наблюдения).
S ^−1 - обратная ковариационная матрица, которая учитывает корреляции между признаками и дисперсии каждого признака. Вычисляется на основе данных.
Каждый кластер семплируем пропорциональное его размеру. Каждый семпл внутри кластера семплируем обратно пропорционально расстоянию от центра.
Количество кластеров кстати выбирается автоматически, по BIC (а зачем еще нужны EM, да?)
Из плюсов:
1. Дополнительных параметров для оптимизации не прибалвяется
2. Избавляемся как минимум от части выбросов
3. Можем оценивать правдоподобие для разных моделей
Из минусов:
1. Проблмеа категориалок
2. EM тоже могут оверфитнуться
3. Никак не аугментируем данные
Идея оверсемплинга используя простые модели получила развитие и в другую сторону:
GMOTE: Gaussian based minority oversampling technique for imbalanced classification adapting tail probability of outliers
Идея:
1. Кластеризуем наш датасет с помощью гаусовских смесей (EM)
2. С помощью измерения расстояния Махаланобиса (сейчас объясню), считаем, является ли пример выбросом
3. Снова кластеризуем с помощью EM
4. Семплируем из оставшихся кластеров с повторениями
D(x,y) - расстояние Махаланобиса между точками xx и yy.
x и y - векторы признаков (наблюдения).
S ^−1 - обратная ковариационная матрица, которая учитывает корреляции между признаками и дисперсии каждого признака. Вычисляется на основе данных.
Каждый кластер семплируем пропорциональное его размеру. Каждый семпл внутри кластера семплируем обратно пропорционально расстоянию от центра.
Количество кластеров кстати выбирается автоматически, по BIC (а зачем еще нужны EM, да?)
Из плюсов:
1. Дополнительных параметров для оптимизации не прибалвяется
2. Избавляемся как минимум от части выбросов
3. Можем оценивать правдоподобие для разных моделей
Из минусов:
1. Проблмеа категориалок
2. EM тоже могут оверфитнуться
3. Никак не аугментируем данные
👍6😁2💩2
Тут новая фича вышла:
1. Обновляем телеграмм
2. Бустим канал по ссылке: https://news.1rj.ru/str/pseudolabeling?boost
3. Получаем благословление до самого конца большой игры
1. Обновляем телеграмм
2. Бустим канал по ссылке: https://news.1rj.ru/str/pseudolabeling?boost
3. Получаем благословление до самого конца большой игры
💩4🤮1
Читаю статью про 'новый' алгоритм для ускорения Jacobi SVD, и такой 'что-то не так. Что-то неправильно. Что-то странно...'
А потом скипнул первый параграф и как понял, в чем дело было
А потом скипнул первый параграф и как понял, в чем дело было
🤣12🫡6🗿1
Постепенно возвращаюсь к Kaggle-кранчам и набросал ядро для Open-Problems Single-Cell Pertrubation
Говорят, если его немножко докрутить (в коде есть подсказка) и сблендить с текущими популярными блендами, то можно влететь в медали
Говорят, если его немножко докрутить (в коде есть подсказка) и сблендить с текущими популярными блендами, то можно влететь в медали
Kaggle
Kfold simple NN refactored
Explore and run machine learning code with Kaggle Notebooks | Using data from Open Problems – Single-Cell Perturbations
🔥10👍1
Стало ли фармить кагл легче, чем в 2018? 🤔
Поспорил с Криптовалерием насчет того, сложнее или проще стало фармить каггл сейчас, чем годами ранее. Спор был горячий и чуть не закончился поломанными ногами, но в споре родилась истина.
Для того, чтобы решать вопрос датадривенно, был использован Google Sheets. Какая датадривенность и без экселя? 📊
Ссылка на таблицу
Я прошелся по вебархиву за разные года и перенес данные в эксель, руками подсчитав количество кгм/мастеров/экспертов и построив базовые графики. Перейдем же к ним!
На первом графике видно, что число мастеров/экспертов/кгм исчезающе медленно прирастает по сравнению с общим числом пользователей.🔽
График второй:
График нормированных производных по годам для конкретных тайтлов. Придумал Валерий, так что expert approved
Например, в 2018 новых экспертов стало сильно больше, а вот количество контрибьюторов осталось примерно прежним.📈 📈 📈
Вот отсюда и можно сделать вывод: в 2018 стать экспертом было проще, чем в 2022. Потому что процентный прирост относительно прошлого года выше. С другой стороны, стать мастером из эксперта стало чуть проще. Но суммарно прорваться из новайсов в мастера стало все же сложнее, чем в 2018. Из двух графиков можно сделать вывод: каглить становится суммарно конкуретнее!
И да, в 2018 Кагл поменял политику и перебанил/даунгрейднул кучу работяг из контрибьюторов в новайсов. А еще не смотрим на 2023 год, он не полный, но крайне многообещающий.
Поспорил с Криптовалерием насчет того, сложнее или проще стало фармить каггл сейчас, чем годами ранее. Спор был горячий и чуть не закончился поломанными ногами, но в споре родилась истина.
Для того, чтобы решать вопрос датадривенно, был использован Google Sheets. Какая датадривенность и без экселя? 📊
Ссылка на таблицу
Я прошелся по вебархиву за разные года и перенес данные в эксель, руками подсчитав количество кгм/мастеров/экспертов и построив базовые графики. Перейдем же к ним!
На первом графике видно, что число мастеров/экспертов/кгм исчезающе медленно прирастает по сравнению с общим числом пользователей.
График второй:
График нормированных производных по годам для конкретных тайтлов. Придумал Валерий, так что expert approved
Например, в 2018 новых экспертов стало сильно больше, а вот количество контрибьюторов осталось примерно прежним.
Вот отсюда и можно сделать вывод: в 2018 стать экспертом было проще, чем в 2022. Потому что процентный прирост относительно прошлого года выше. С другой стороны, стать мастером из эксперта стало чуть проще. Но суммарно прорваться из новайсов в мастера стало все же сложнее, чем в 2018. Из двух графиков можно сделать вывод: каглить становится суммарно конкуретнее!
Please open Telegram to view this post
VIEW IN TELEGRAM
Google Docs
Спорю о каггле
🔥12👍4😍3👏2❤1
Через несколько часов закончится Open Problems, так что в следующую пятницу будет разбор соревы
🔥5
Коротенько расскажу про соревнование и решения на стриме у Алерона сегодня
Forwarded from 🏄 Соревновательный Data Science | Kaggle | Чемпионаты
Привет, чемпионы! 🏆
📣 Завтра, 8 декабря в 17:00, проведём ещё один стрим.
Расскажем про 3 соревы:
1) Дима @dimitriy_rudenko расскажет, как участвовал в Open Porblems, про топовые находки победителей, с фокусом на том, что можно переиспользовать. Канал Димы.
2) Артём @cosheimil расскажет про 2 соревы: как взял🥉 на LWP и про идущую сореву Enefit.
🔥Тем кто пропустил стрим прошлой пятницы советуем посмотреть. Мы там в начале уже затронули Enefit.
Помните:
🧑🏻💻 пишите в комментах про какие соревы вам интересно послушать в следующие пятницы!
🕵🏻♂️ вы всегда можете поделиться обзором соревы, в которую планируете залететь или той в которой уже поучаствовали. Пишите в лс @dfeeler ⚡️
📣 Завтра, 8 декабря в 17:00, проведём ещё один стрим.
Расскажем про 3 соревы:
1) Дима @dimitriy_rudenko расскажет, как участвовал в Open Porblems, про топовые находки победителей, с фокусом на том, что можно переиспользовать. Канал Димы.
2) Артём @cosheimil расскажет про 2 соревы: как взял🥉 на LWP и про идущую сореву Enefit.
🔥Тем кто пропустил стрим прошлой пятницы советуем посмотреть. Мы там в начале уже затронули Enefit.
Помните:
🧑🏻💻 пишите в комментах про какие соревы вам интересно послушать в следующие пятницы!
🕵🏻♂️ вы всегда можете поделиться обзором соревы, в которую планируете залететь или той в которой уже поучаствовали. Пишите в лс @dfeeler ⚡️
🤡2❤1👎1🔥1🤮1👀1 1
Написал простенький кернел для UBC:
Все картинки нарисовал
Для всех картинок посчитал соотношения сторон к тамбнейлам
Отпечатал классы для каждой картинки
Например тут можно увидеть, что некоторые картиники- это снимок в двух срезах, а некоторые в трех. Планирую посмотреть вообще все картинки из трейна, мб там что-то совершенно великолепное найдется.
Наслаждайтесь
Все картинки нарисовал
Для всех картинок посчитал соотношения сторон к тамбнейлам
Отпечатал классы для каждой картинки
Например тут можно увидеть, что некоторые картиники- это снимок в двух срезах, а некоторые в трех. Планирую посмотреть вообще все картинки из трейна, мб там что-то совершенно великолепное найдется.
Наслаждайтесь
Kaggle
All Kaggle Images printed
Explore and run machine learning code with Kaggle Notebooks | Using data from UBC Ovarian Cancer Subtype Classification and Outlier Detection (UBC-OCEAN)
🔥4🕊2👍1 1 1
überподробный writeup нашего решения для open problems:
https://www.kaggle.com/competitions/open-problems-single-cell-perturbations/discussion/460858
В соревновании есть приз за лучшие writeup'ы: 10к для 5 команд из топ-100, выбранных судьями.
Апвоуты, апвоуты, апвоуты! Помогите мне забрать денег с каггла!🔝 🔝 🔝
А еще если вы осилите эту стену текста и хотите покритиковать части поста, как непонятные или нашли опечатки- пишите в комменты или мне в личку обязательно. Ваш альтруизм не будет забыт!
https://www.kaggle.com/competitions/open-problems-single-cell-perturbations/discussion/460858
В соревновании есть приз за лучшие writeup'ы: 10к для 5 команд из топ-100, выбранных судьями.
Апвоуты, апвоуты, апвоуты! Помогите мне забрать денег с каггла!
А еще если вы осилите эту стену текста и хотите покритиковать части поста, как непонятные или нашли опечатки- пишите в комменты или мне в личку обязательно. Ваш альтруизм не будет забыт!
Please open Telegram to view this post
VIEW IN TELEGRAM
Kaggle
Open Problems – Single-Cell Perturbations
Predict how small molecules change gene expression in different cell types
👍8🔥2 1 1
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGACOMPETE webinar on bionformatics and data science:
👨🔬 Дмитрий Руденко, Александр Червов "Обзор прошедшего соревнования "Open Problems – Single-Cell Perturbations""
⌚️ Четверг 20.00 (по Москве) 14 Декабря
Добавить в Гугл календарь
В соревнование требовалось предсказать как под действием лекарств (146 разных) меняются экспрессии генов. Было только две фичи и они категорные - название клеточного типа (6 типов клеток крови) и название лекарств. Семплов мало - 600+ в трейне, 255 в тесте, но таргетов было много 18211 (все гены). Удивительно, но особого шейкапа не было, хотя СВ-ЛБ билось плохо и семплов мало. Основные решения строились на PYBOOST и нейронках (удивительно, но нейронки хорошо работают даже при таком малом числе семплов).
Наша команда (Антонина Долгорукова, Дмитрий Руденко, Дмитрий Ершов, Антон Вахрушев, Александр Червов) заняла "счастливое" 13 место - ровно на 1 ниже золота (((((
Но у нас есть шанс еще на приз от экспертов - и ваши апвоуты - нам не помешают:
"U900 team - PYBOOST is what you need"
https://www.kaggle.com/competitions/open-problems-single-cell-perturbations/discussion/460858 описание решения и ответы на вопросы оргов. (Ваш альтруизм не будет забыт!)
В данном докладе мы напомним в чем была задача, немного расскажем о подходе на PYBOOST и перейдем к обзору решений других команд.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
PS
Подписывайтесь на канал Дмитрия о дата сайнс и Каггл: https://news.1rj.ru/str/pseudolabeling
👨🔬 Дмитрий Руденко, Александр Червов "Обзор прошедшего соревнования "Open Problems – Single-Cell Perturbations""
⌚️ Четверг 20.00 (по Москве) 14 Декабря
Добавить в Гугл календарь
В соревнование требовалось предсказать как под действием лекарств (146 разных) меняются экспрессии генов. Было только две фичи и они категорные - название клеточного типа (6 типов клеток крови) и название лекарств. Семплов мало - 600+ в трейне, 255 в тесте, но таргетов было много 18211 (все гены). Удивительно, но особого шейкапа не было, хотя СВ-ЛБ билось плохо и семплов мало. Основные решения строились на PYBOOST и нейронках (удивительно, но нейронки хорошо работают даже при таком малом числе семплов).
Наша команда (Антонина Долгорукова, Дмитрий Руденко, Дмитрий Ершов, Антон Вахрушев, Александр Червов) заняла "счастливое" 13 место - ровно на 1 ниже золота (((((
Но у нас есть шанс еще на приз от экспертов - и ваши апвоуты - нам не помешают:
"U900 team - PYBOOST is what you need"
https://www.kaggle.com/competitions/open-problems-single-cell-perturbations/discussion/460858 описание решения и ответы на вопросы оргов. (Ваш альтруизм не будет забыт!)
В данном докладе мы напомним в чем была задача, немного расскажем о подходе на PYBOOST и перейдем к обзору решений других команд.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
PS
Подписывайтесь на канал Дмитрия о дата сайнс и Каггл: https://news.1rj.ru/str/pseudolabeling
❤8🔥1 1 1
Завтра выступаем на воркшопе NeurIPS 2023 как выбор организаторов!
Подключайтесь, радуйтесь с нами😍
Время:
В Москве 1:00
В Европе 23:00
В комменты кину приведенное время и дату
Подключайтесь, радуйтесь с нами
Время:
В Москве 1:00
В Европе 23:00
В комменты кину приведенное время и дату
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20❤2 1 1
Запрети мне псевдолейблить
Завтра выступаем на воркшопе NeurIPS 2023 как выбор организаторов! Подключайтесь, радуйтесь с нами 😍 Время: В Москве 1:00 В Европе 23:00 В комменты кину приведенное время и дату
Пароль wingfood, если вы вдруг проглядели на скрине!
Там целый зал нипсеров, можно вообще проникнуться тем, как проходят мероприятия на нипсе
Там целый зал нипсеров, можно вообще проникнуться тем, как проходят мероприятия на нипсе
Вчера закончилось соревнование CAFA5. Заняли с командой 132 место и зафармили бронзовую медальку 🥉
Разбирать эту сореву нет особого смысла: случилась она давно и только сейчас подбили лб нормально. Я даже биологический контекст не помню
Тем самым переполз с 1213 места на 1121 в глобальном рейтинге соревнований. Видимо в этом календарном году это последняя медалька😭
Стало быть примерно за год получилось:
Вползти в Competition Expert
Выступить на Мюнхенском каггл митапе
Дать кучу разборов прошедших соревнований
Зафармить серебро🥈 и три бронзы 🥉️️️️️️ в компетишнах
И самое главное: познакомиться с кучей мотивированныих и интересных людей
Тем самым переполз с 1213 места на 1121 в глобальном рейтинге соревнований. Видимо в этом календарном году это последняя медалька
Стало быть примерно за год получилось:
Вползти в Competition Expert
Выступить на Мюнхенском каггл митапе
Дать кучу разборов прошедших соревнований
Зафармить серебро
И самое главное: познакомиться с кучей мотивированныих и интересных людей
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20❤5🔥4🏆3🕊1 1 1
Тинькофф запустил игру в слова, и я в ней не мог проиграть
Правила просты: 6 попыток, слово из 5 букв.
Нужно предложить существительное.
Игра подсветит, каких букв нет, какие есть, но не на той позиции, и угаданные буквы.
Пример: правильное слово 'канат', а вы пишете 'набат' – последние две и вторая буква угаданы, первая присутствует, но не на той позиции, а 'б' исключается.🅰️
Я подумал и решил, что игра алгоритмически проходима, так что используйте мой скрипт. Он сильно помогает решать эту задачу.🤖 🤖 🤖
1. Скачиваем массив всех русских слов
2. Из них отбираем только те, что содержат нужные буквы
3. Из них вычищаем слова, где есть ненужные буквы
4. Фильтруем по знанию о позициях присутствующих букв
5. Оставляем только существительные
На выходе остается буквально несколько слов, из которых можно выбрать наиболее адекватное с наибольшим числом уникальных букв и отгадать слово дня. Вы великолепны!
В качестве компенсации желтому банку, подписывайтесь на канал @scitator_ai. Он ресерчит, иногда допиливает Catalyst(я туда даже контрибьютил) и вообще крутой человек из Тинькофф, его канал незаслуженно непопулярен
Маркетологи тинька, свяжитесь со мной, если вдруг хотите заплатить за интеграцию. Я не против
Правила просты: 6 попыток, слово из 5 букв.
Нужно предложить существительное.
Игра подсветит, каких букв нет, какие есть, но не на той позиции, и угаданные буквы.
Пример: правильное слово 'канат', а вы пишете 'набат' – последние две и вторая буква угаданы, первая присутствует, но не на той позиции, а 'б' исключается.
Я подумал и решил, что игра алгоритмически проходима, так что используйте мой скрипт. Он сильно помогает решать эту задачу.
1. Скачиваем массив всех русских слов
2. Из них отбираем только те, что содержат нужные буквы
3. Из них вычищаем слова, где есть ненужные буквы
4. Фильтруем по знанию о позициях присутствующих букв
5. Оставляем только существительные
На выходе остается буквально несколько слов, из которых можно выбрать наиболее адекватное с наибольшим числом уникальных букв и отгадать слово дня. Вы великолепны!
В качестве компенсации желтому банку, подписывайтесь на канал @scitator_ai. Он ресерчит, иногда допиливает Catalyst
Please open Telegram to view this post
VIEW IN TELEGRAM
😁5❤2 1 1