Запрети мне псевдолейблить – Telegram
Запрети мне псевдолейблить
2.76K subscribers
153 photos
3 files
147 links
Канал о пути к Kaggle competitions (теперь уже) GrandMaster и пиве, которым обливаешься в процессе

Последний авторский канал про мл, претендующий на искренность и позволяющий ставить клоунов
Download Telegram
🚀 @SBERLOGACOMPETE webinar on data science:
👨‍🔬 Dmitrii Rudenko "G2 Gravitational waves Kaggle competition debrief"
⌚️ 20 January, Friday, 19.00 (Moscow Time)

Add to Google Calendar

Welcome to the G2 Kaggle competition debrief on Detecting Gravitational Waves! My name is Dmitrii Rudenko and I am excited to share with you the top solutions from this competition, as well as my own bronze medal-winning solution. As many of you may know, the task in this competition was to use computer vision techniques to detect gravitational waves in images. These waves are extremely faint and difficult to detect, making this a challenging problem for machine learning algorithms. However, through the use of innovative techniques and careful tuning of models, we were able to achieve impressive results. I look forward to discussing the details of these solutions with you and hearing your thoughts and insights on the topic. Let's get started!

Link to the competition: https://www.kaggle.com/competitions/g2net-detecting-continuous-gravitational-waves/overview

Zoom link will be available at
https://news.1rj.ru/str/sberlogabig shortly before the start.

Video records of the talks: https://www.youtube.com/c/SciBerloga - subscribe our channel !
Запись рассказа:
https://lcc.click/4yXDGd9

И слайды выступления, по которым можно потыкать и посмотреть описания топовых решений от самих победителей:
https://url-x.it/bcPR4gD
Вот это мы в Breast Cancer и проверим
Forwarded from Spark in me (Alexander)
Random image from an article
👍1🔥1
Breast Cancer- это соревнование, в котором нужно стакать.
Когда мне нужно вспомнить, как стакать, то я обращаюсь к бакалаврской работе Александра Гущина о которой узнал из одного знаменитого блога.

Давайте разберем вообще методы, которые есть и кто такой этот стакинг. Дополнительным бонусом объясняю, почему вообще важно стакать в этом соревновании.

Самый простой и ленивый способ:
Делим выборку на две части: трейн для наших базовых алгоритмов и трейн для нашего метаалгоритмa. Обучаем базовые алгоритмы, предсказываем трейн для метаалгоритма и используем это как метапризнаки. Можно оставить предыдущие фичи, можно не оставлять. Обычно полезнее не оставлять.
Почему делим? Потому что если не делить, то метаагоритм быстренько выяснит какой из базовых алгоритм лучший и на остальные забьет. Мы такого конечно не хотим. Заметили, что окончание выделено курсивом? Все верно, можно так то обучить несколько метаалгоритмов, но обычно это особо не дает качества. Метаалгоритм нам очень сложный не нужен, обычно берут какую-нибудь из линейных моделей. Большая часть сигнала из данных уже выжата и нам нужно только грамотно скомбинировать сигналы.

Тут направшивается вопрос: а почему мы не используем все данные? Так тоже на самом деле можно:
1. Делим выборку на N фолдов
2. Для каждого сплита получаем базовое предсказание по схеме выше
3. Конкатенируем сплиты и по ним учим все те N фолдов метаалгоритма. Вы великолепны.
Но для теста у нас получается N предсказаний. Мы их просто усредняем (или берем медиану).

Это была база. Теперь давайте посмотрим на то, что предложил в своей работе Александр:
Улучшение простое:
Метаалгоритм у нас обычно простенький и учится относительно быстро. А давайте мы каждый трейн для метаалгоритма поделим на фолды. И того:
1. Весь датасет делим на N фолдов (N_i).
2. Каждый N_i поделим на K мета-фолдов. Назовем K_i.
3. Для каждого из обычных фолдов натренируем базовые алгоритмы на всем, кроме него. Предскажем этими базовыми алгоритмами сам фолд. Предскажем сам фолд с помощью второго сплита уже метаалгоритмом. Тогда мы можем 'собрать обратно'. фолд конкатенацией и получим N * K предсказаний для теста. Все их усредним (или возьмем медиану).
Тут самая прелесть в том, что мета-алгоритм тренировать быстрее и теоретически мы получим меньшее смещение на самом метаалгоритме.

Маловероятно, что авторы третьего места в G2 читали эту бакалаврскую работу, но они использовали очень похожу технику:
После предсказания признаков для метафолдов, они делали предсказание не в стиле OOF, а семплировали с повторением объекты из трейна и учили метаалгоритм на них (линейную модель). Таким образом они получили бустрап-оценку для коэффициентов линейной регрессии и взяли просто их среднее.

Так а почему в breast Cancer важно стакать? Все очень просто:
Соревнование картиночное, но картинки в разных проекциях. рак на них и так сложно найти и заставлять сетку найти на каждой картинке еще и в разных проекциях рак- очень сложно. Вероятно, надо тренировать для проекций отдельный модели. Но в тесте нужны ответы не на уровне снимков, а на уровне снимаемых объектов (как минимум в паре проекций). Чтобы грамотно аггрегировать такой ансамбль и придется использовать метамодель. Предсказываю страшнейшие схемы в лидерборде после конца соревнования.
🔥5👍2
Буду делать обзор недавно начавшейся соревы и набрасывать идеи для ее решения. Насчет своего участия пока не решил. Приходите обсуждать
🚀 @SBERLOGACOMPETE webinar on  data science:
👨‍🔬 Dmitrii Rudenko "IceCube - Neutrinos in Deep Ice Overview"
⌚️ 10 Febraury, Friday, 19.00  (Moscow Time)

Add to Google Calendar

We are going to review Neutrinos in Deep Ice.
This competition challenges participants to predict the direction of neutrino particles using data from the IceCube detector at the South Pole. The goal is to improve the accuracy and speed of reconstructing neutrino events, which could lead to a better understanding of the universe and its violent astrophysical sources. The challenge is to balance accuracy and computational costs as existing solutions have limitations. The winning solution will aid the international IceCube Collaboration in their research of the nearly massless and electrically neutral neutrinos.

Link to the competition:
https://www.kaggle.com/competitions/icecube-neutrinos-in-deep-ice

Zoom link will be available at
https://news.1rj.ru/str/sberlogabig shortly before the start.

Video records of the talks: https://www.youtube.com/c/SciBerloga - subscribe our channel !
🔥6
The Best visualization I have ever seen
🤡5👍1🔥1
(sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGACOMPETE webinar on  data science: 👨‍🔬 Dmitrii Rudenko "IceCube - Neutrinos in Deep Ice Overview" ⌚️ 10 Febraury, Friday, 19.00  (Moscow Time) Add to Google Calendar We are going to review Neutrinos in Deep Ice. This competition challenges participants…
Короче, Подписчики, я вам шарю презу за 20 минут до выступления в благородство играть не буду: выполните для меня пару заданий — и мы в расчете. Заодно посмотрим, как быстро у вас башка после биоинформатики прояснится. А по вашей теме постараюсь разузнать. Хрен его знает, на кой ляд вам эти медальки сдались, но я в чужие дела не лезу, хотите получить, значит есть за что...
👍5😁1🌚1
Считаю ведущим показателем качества английской речи то, что ютюб генерит корректные субтитры.

Кстати, решил, что нечего добру пропадать и написал небольшой разбор метрики на форум каггла. Не пропадать же затеханому добру.
👍1
Forwarded from Alexander C
Sberloga Rudenko Kaggle IceCube - Neutrinos in Deep Ice.pdf
1.6 MB
📖 Presentation:
👨‍🔬 Dmitrii Rudenko: "Kaggle competition: IceCube - Neutrinos in Deep Ice Overview"
📹 Video: https://youtu.be/Kl1jTE9hbew
✔️ Abstract: https://news.1rj.ru/str/sberlogabig/230
📰 @pseudolabeling - subscribe to Dmitry's telegram-channel devoted to Kaggle and data science.
🔥5
Что там с Breast Cancer?
Я чет приуныл от того, что сильный бейзлайн считался на 4xA100 и не делал ничего недели две с половиной. Сейчас готовлюсь к экзу и как-то прям сильно решать времени нет. Внезапно, меня пинганули об этом и я видимо буду немножко менеджерить процесс решения соревы, но сам не буду слишком много кода писать. Нативная интеграция лидерских качеств какая-то
Запилю обязательно разбор соревы через неделю после ее окончания, но возможно получится за эту неделю нафармить каких-нибудь дешевых гипотез и залететь все же в медальки. Вдруг выйдет взять наскоком, кто знает!
👍2
Очень люблю визаулизации.
Этот график явно делали программисты/дсы. Прямо вижу, как люди смотрели на график и такие:
-Как-то недружелюбно для пользователя. Надо сделать приятнее.
-Добавим облака?
-Добавим облака.

В следующих сериях:
1. Разбор Breast Cancer и почему ничего не взяли. По классике будет еще и созвон в зуме в следующую пятницу (поставьте себе встречу и приходите ко мне!)
2. Самый энергоэффективный способ фармить кагл, который наверно я переизобрел
3. Мысли про новую сореву, чтобы участвовать
👍5😁2
Играл с ChatGpt и просил сгенерировать мне Dockerfile, который устанавливал бы нужное окружение с помощью poetry.
Что интересно, так это то, что ChatGPT выдал мне такую строчку для усатновки самого poetry в image:
RUN curl -sSL https://raw.githubusercontent.com/python-poetry/poetry/master/get-poetry.py | python -
Ссылка недействительная. Но что мешает поискать еще битых ссылок по похожим запросам и залить туда шпионящий модифицированный вариант софта и скамить мамонтов?
ChatGPT уже генерил ненастоящие статьи. Кажется, может генерить ненастоящие ссылки.
Беглое гугление говорит, что ChatGPT вообще довольно редко генерит рабочие ссылки
Так может, пора заставить их быть рабочими?
5🔥4
🚀 @SBERLOGACOMPETE webinar on data science:
👨‍🔬 Dmitrii Rudenko "Kaggle competition debrief: RSNA Screening Mammography Breast Cancer Detection "
⌚️ 17 March, Friday, 19.00 (Moscow Time)

Add to Google Calendar

Discussion of the Kaggle computer vision competition "RSNA Screening Mammography Breast Cancer Detection" (link). The task formulation, input data, some domain knowledge, and ideas of some solutions will be discussed.

Zoom link will be available at
https://news.1rj.ru/str/sberlogabig shortly before the start.

Video records of the talks: https://www.youtube.com/c/SciBerloga - subscribe our channel !

📰 Telegram channel by Dmitry on Kaggle: https://news.1rj.ru/str/pseudolabeling - subscribe it !
🔥1
Сегодня 16 человек пришло послушать. Спасибо!
🔥71
Все сегодня плачут по отключению ODS. Из всех фреймворков выбрал пока singularis.ai, поддавшись на Валерину пропаганду. Хотя для меня уже давно чаты Берлоги заменили ODS, пачивший на лаврах и застывший в своей неповоротливости. Слишком много людей и мало вовлеченности, ничего не добиться нормально
UPD: чет много людей все еще не понимают, о чем речь. Я в своем контексте и введения людеям не дал. Напишу короткия и грязный пост видимо о том, что вообще случилось с одсом
👍7
Что же случилось с ODS?
ОДС начал погибать еще до ковида. Стало очень много людей. Когда становится много людей, много нерелвантных мнений. От этого средний уровень вовлеченности падал и типичным было увидеть раз в три дня одно сообщение в условном kaggle_crackers.

Коронваирус дозаправли топлива: многим людям было скучно дома и они вернулись в одс для общения. Я тоже тогда вернулся и даже стал проходить курс по графовым нейросеткам от стендфорда. Оказалось, что его проходят парни из AI лабы Сбера, которые даже сделали отдельную группу. Оказалось, что это уже тоже целое околосбер-сообщество. Люди стали привыкать к короне и одс снова стал остывать примерно через полгода-год.

В этот момент многие большие мальчики из ODS поняли, куда дует ветер и стали собирать вокруг себя комьюнити, чтобы держать людей в курсе и дальше качать личный бренд. Примеры: канал Валеры, незаслуженно непопулярный канал Сережи Колесникова (scitator). Последний кстати пытался еще и собрать людей вокруг Catalyst и контрибьюшнов в него, но почему-то история заглохла.

Когда начались боевые действия, ОДС попал под волну банов Slack для российских компаний. Как я понимаю, Slack чарджит за пользователей и раздутый (и в основном мертвый) ODS стал слишком дорого обходиться. Кто-то из основателей ODS оплатил со своей карты хост хаба, но это было временным решением. Было ясно, что ОДС умрет/var/folders/l1/b01fb2tx5l12nfvrxfmqxggh0000gn/T/TemporaryItems/NSIRD_screencaptureui_RjiDKU/Снимок экрана 2023-03-24 в 14.19.47.png не сегодня, так через пару месяцев.

Натекин решил перетащить всех в другую селф-хостед платформу даже до февраля 2022, но дело шло тухло. Я кажется даже подался на инвайт, но так в матрикс инвайта и не получил. Сейчас, когда Натекин помогает РКН строить цифровой гулаг, не сильно сожалею о отсутствии инвайта.

Более либеральным форком ОДС стал singularis.ai. В нем все по-старому с точки зрения организации, пока люди туда только подтягиваются. Можно считать его ODS 1.1.

Есть еще комьюнити NoML, которое можно занести в личные каналы, пытающиеся вырасти в сообщество.
Сберлога переродилась и перестала быть частью Сбера. Теперь она (sci) Berloga, что даже немножко смешно, но соответствует духу времени.

Алгоритм принятия решений для вас по взглядам на картинке
👍4💩1