NEW BOT Телеграм, страница - 694017835

Запрети мне псевдолейблить

@pseudolabeling

3.04K subscribers

161 photos

3 files

156 links

Канал о пути к Kaggle competitions (теперь уже) GrandMaster и пиве, которым обливаешься в процессе

Последний авторский канал про мл, претендующий на искренность и позволяющий ставить клоунов

Download Telegram

About

Blog

Apps

Platform

Запрети мне псевдолейблить

3.04K subscribers

Запрети мне псевдолейблить

This media is not supported in your browser

VIEW IN TELEGRAM

2.47K views10:59

2❤5🤡4

Запрети мне псевдолейблить

🏀Не долго музыка играла, March Mania кончилась и все команды сыграли. 🏀

ПОЛУЧИЛОСЬ ОЧЕНЬ ПЛОХО

В этот раз было достаточно много 'Внезапных побед', так что после первых раундов меня довольно быстро потопило.

Из идей, которые можно вынести на будущее:
🔸 Надо обязательно участвовать. Это буквально лотерейный билет на solo gold — самый сложный шаг на пути к Kaggle Grandmaster, и его вполне можно вытянуть даже из паблик кернела с хорошим сидом

🔸 Вместо ELO — лучше GLIKO (версия 2). Он позволяет задавать разную дисперсию силы для разных команд, что особенно важно для нестабильных команд

🔸 Смотреть надо не на разницу очков, как Raddar, а на offense-defense метрики, как Джордж. Например, в попытках атак на кольцо хорошо видно, что одни команды закидывают трёшки, а другие играют в проход под кольцо. Результаты тоже сильно разные.

🔸 Женский баскетбол требует очень "неуверенного" подхода. Уровень команд более ровный, денег меньше, тренировки проще. В гранд-финале центровая проходит под кольцо и забивает сверху, а ее даже никто не пытается заблокировать. Фэнтези-баскет какой-то.

🔸 Последние матчи команды до турнира — самые важные. Игроки в NCAA проводят максимум 4 года, а звёзды уходят в профи уже через 2. Значит, старая статистика быстро устаревает и баланс сил меняетя.

㊙ Секретный хинт: можно взять отношения шансов на победу у букмейкеров и посмотреть, где модель фатально ошибается с распределением шансов в турнире через прямую симуляцию. Я наверно в следующий раз буду с ней блендить даже. Так можно отловить 'немодельные изменения', например травмы игроков

👍15❤8💅32

2.93K viewsedited 11:04

Запрети мне псевдолейблить

Новое соревнование на Kaggle:
Yale/UNC-CH - Geophysical Waveform Inversion

Цель- инвертировать отражения сейсмических волн. Надо по 3D (два направления и время) предсказать карту глубин.

На kaggle только часть датасета в 108 гб, но полный датасет весит 2.2 террабайта. Тут есть нюанс- для каждой уникальной карты глубин есть 500 замеров, чтобы их усреднить и уменьшить шум.

Метрика MAE по 69 колонкам (мультирегрессия)

По сути нам нужно из данных
p(*), t, x, z и (s + eps) вычислить c(*) в заданных точках.

Мои шесть семестров дифуров из универа напряглись, хотя гиперболическое дифференциальное уравнение в частных производных мы кажется отдельно не разбирали

Мне в свое время очень нравилась идея поженить свои знания МЛ и время потраченное на дифуры и уже была хорошая сорева для этого:
Google Brain - Ventilator Pressure Prediction

Там нужно было моделировать давление в легких в зависимости от нагнетаемого объема воздуха, что хорошо описывается дифурами, но в топовых решениях были просто plug-n-play трансформеры 😭

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13🔥5❤2

4.22K views11:14

Запрети мне псевдолейблить

Продолжая тему академичных соревнований:
Forams Classification 2025

Соревнование от CVPR и хорошее место возможно откроет вам выступление на воркшопе CVPR и приглашение на конфу. Но вообще авторы в соревновании ничего не пишут и не обещают по поводу конфы. Я им на всякий случай написал имейл, так что если они вдруг сподобятся ответить- я вам расскажу. В соревновании нет медалек, так что сильной конкуренции и дядек с личными H20 не будет

Данные тоже забавные:
3D сканы окаменелых моллюсков 128x128x128 вокселей и 15 классов. Загвоздка в том, что на каждый класс дано по 15 размеченных семплов, прямо как у мня на парах по классическому CV в свое время.
Данных всего 18424 примеров, так что подавляющая часть вообще не размечена.

Метрика- F1.

План для изи ачивки в академической карьере:
1. Берем команду из 5 человек
2. Смотрим глазами все классы и каждый размечает по 300 примеров (всего уже 1500 примеров)
3. Учим на jpeg-проекциях вокселей от авторов что-нибудь простое, типа Resnet.
4. Проверяем за резнетом и исправляем ошибки для самых уверенных классов
5. Учимся еще раз
6. Проверяем еще раз
7. ...
8. PROFIT!

👍15❤63🔥1🤡1

4.18K viewsedited 08:02

Запрети мне псевдолейблить

Forwarded from Hacker News

Python's new t-strings (Score: 154+ in 5 hours)

Link: https://readhacker.news/s/6t8rs
Comments: https://readhacker.news/c/6t8rs

1🔥5❤4👍2🤡2

4.19K views13:28

Read 80+ Comments

Запрети мне псевдолейблить

Запрети мне псевдолейблить

Продолжая тему академичных соревнований: Forams Classification 2025 Соревнование от CVPR и хорошее место возможно откроет вам выступление на воркшопе CVPR и приглашение на конфу. Но вообще авторы в соревновании ничего не пишут и не обещают по поводу конфы.…

Approved:
Если занять хорошее место на Forams Classification 2025, то позовут выступать на семинаре CVPR.

❤13🤡4👍3

5.08K viewsedited 08:26

Запрети мне псевдолейблить

Человечество:
Изобретает LLM-driven поиск, чтобы не читать булшит от маркетологов и ллмки переписали все без воды и CEO-оптимизации

Маркетологи:
МЫ СОБРАЛИ ДЛЯ ВАС ПЯТНАДЦАТЬ ТЫСЯЧ ПРОМТОВ КОТОРЫЕ ПОЗВОЛЯТ ВАМ ЛУЧШЕ ИСКАТЬ С ПОМОЩЬЮ AI

🤣51🤡114❤2👍2💅1

5.66K viewsedited 16:13

Запрети мне псевдолейблить

Сори что без оригинального контента пока

❤6🤡1

3.68K views16:54

Запрети мне псевдолейблить

Forwarded from Hacker News

X X^t can be faster (Score: 150+ in 8 hours)

Link: https://readhacker.news/s/6uANa
Comments: https://readhacker.news/c/6uANa

$XX^{t}$ Can Be Faster

We present RXTX, a new algorithm for computing the product of matrix by its transpose $XX^{t}$ for $X\in \mathbb{R}^{n\times m}$. RXTX uses $5\%$ fewer multiplications and $5\%$ fewer operations...

🔥12🥱3❤2

3.91K views16:54

Read 45+ Comments

Запрети мне псевдолейблить

Запрети мне псевдолейблить

А вот из ржомб из моей дс-жизни: Раз в пару месяцев ко мне приходит в лс бот из AISender. Это такой провайдер этих всех духовных ботов, заманивающих вас по ссылке в комментах. Но иногда они приходят в лс и предлагают свои «услуги» Обычно такие боты используют…

Ко мне снова пришли миньоны Рустама. В этот раз их видимо переалайнили: боты перестали хоть как-то отвечать на сообщения или как-то видоизменять скрипт. По ощущениям- там 50 разных фраз внутри и бот моделькой выбирает самый правдоподобный ответ. Скукота, но прогресс на лицо. Боты стали еще скучнее и больше похожими на классических спамеров.
А вот блеклист видимо все еще не прикрутили, чтобы токены на меня и других хейтеров не тратить. Удивительно, насколько Рустам читал lean startup, но не понимал что пишут

👍8🤡5😁4😐3🥰2

4.8K viewsedited 09:38

Запрети мне псевдолейблить

Теперь образ Рустама приследует меня всюду

🕊5😁4❤2🤡2🍓1

4.64K views10:24

Запрети мне псевдолейблить

Please open Telegram to view this post

VIEW IN TELEGRAM

🙏22🤝7

21:31

Запрети мне псевдолейблить

Птичное соревнование закончилось, так что на этой неделе будут разборы птичного соревнования. Удивительно, но оно птичное даже в UMAP эмбедах, как можно увидеть выше

Ну или на следующей...

😁11🕊5❤2👻1

2.99K viewsedited 10:49

Запрети мне псевдолейблить

BirdCLEF+ 2025

Очередная часть ежегодного соревнования от Cornell Lab of Ornithology.

Дано:
– 12 ГБ аудиозаписей птиц, насекомых, рептилий и т. д.
– Источники (около–опенсорс):

1. xeno-canto.org
2. iNaturalist
3. Colombian Sound Archive (CSA) института Гумбольдта в Колумбии

Первые два источника — чистый краудсорс, разметка «грязная»:
1. у части семплов встречаются продолжительные комментарии колубийского натуралиста на испанском;
2. муха залетает в микрофон и гудит 40 секунд из 50 секунд записи вообще-то птицы;
3. мой любимый фейл — запись птицы, где звук обрывается громким «бултых», а дальше — полная тишина на 90 сек. Видимо не все микрофоны пережили сборку датасета

Разметка (для всех семплов):
1. Основной лейбл — целевая живность, которую нужно предсказывать.
2. Вторичный лейбл — какие ещё виды могут быть слышны. Конечно же не гарантирует то, что все виды на записи хотя бы отмечены
3. Координаты
4. Автор записи
5. Оценка качества (только для xeno-canto)
6. Источник данных (одна из трёх библиотек)

Трейн/тест сплит:
Общий пул разбит по записям, но обработан по-разному:
В train — полные аудиофайлы.
В test — нарезки записей по 5 с.
Например, из записей длительностью 30 сек и 20 сек получится 10 тест-семплов:
первые 6 — с основным лейблом первой записи;
остальные 4 — с лейблом второй.

Метрика:
Macro-ROC-AUC — сортировка вероятностей внутри каждого класса и усреднение без учёта частоты встречаемости.

Ну и конечно же ограничения на железо:
90 минут CPU-only

Тут кстати тренд:
2025- 90 min CPU-only
2024- 120 min CPU-only
2023- 120 min CPU-only
2022- 9 hours с доступом к GPU
2021- 9 CPU часов или 3 GPU часа

Как решать будете?

❤9👍5😁2🤮2

2.87K viewsedited 16:22

Запрети мне псевдолейблить

Ну я пост про решение написал, вот вам тизер

🤡3❤2

1.97K views16:27

Запрети мне псевдолейблить

Forwarded from Silero TTS (озвучка, текст в голос).

👉 Поддержать бота 👈

🔥3🤡3😁2🥴2🌚2

1.85K views16:27

Запрети мне псевдолейблить

Пятое место #Birdclef2025

Мануальная обработка данных
Это вообще та самая 'секретная техника', которую все ленятся делать. Данные полезно ковырять/слушать смотреть руками
Использовали Silero для того, чтобы найти записи с человеческим голосом, затем слушали их уже своими ушами и вырезали все фрагменты, где слышен человек.
Вообще у Silero есть бот, так что я им пожалуй и озвучу этот раздел поста.
Для классов с низкой частотностью (меньше 30 семплов в трейне) дополнительно послушали все записи и из каждой вычистили участки, где птиц не слышно.
Для трейна брали только первые 30 сек записи, а для низкочастотных 60 сек. Там, где семплов было меньше 20 для класса- апсемплили, чтобы 'разудть' трейн.

Модели
Стакали кучу эффишентнетов. Благо они с легкостью влезали в ограничения по CPU
• 4x tf_efficientnetv2_s
• 3x tf_efficientnetv2_b3
• 4x tf_efficient_b3_ns
• 2x tf_efficient_b0_ns

Но важно что тренировали в три стейджа. В каждом FocalLoss, Adam, Cosine Annealing + warmup

Первый стейдж:
только основной набор данных, только основной таргет

Второй стейдж:
Основной таргет + псевдолейблы, только основные размеченные данные + двухэтапная самодистилляция

Третий стейдж:
Использовали все данные. Для каждого батча брали половину из размеченных данных, половину из неразмеченных. Для основного набора испольовали основные лейблы + псевдолейблы с второго этапа, для неразмеченных- только псевдолейблы
Ну и еще дважды самодистилляция.

Если вы шарите, то объясните плз в комментах почему самодистилл работает и почему его есть смысл больше двух раз делать? Там еще и перфоманс на самодистиллах растет. В комментах есть график того, какие резульатты получаются от уровня дистилла

🔥14❤5👍1

2.22K viewsedited 10:02

Запрети мне псевдолейблить

4 место в #BirdClef2025
Коротко, но ценно: иногда простота выигрывает.

Поскольку на BirdCLEF нас оценивают именно по AUC, логично оптимизировать его напрямую.
AUC-лосс устойчив к переобучению, но не поддерживает soft labels, как, например, кросс-энтропия.


class SoftAUCLoss(nn.Module):
    def __init__(self, margin=1.0, pos_weight=1.0, neg_weight=1.0):
        super().__init__()
        self.margin = margin
        self.pos_weight = pos_weight
        self.neg_weight = neg_weight

    def forward(self, preds, labels, sample_weights=None):
        # Разделяем положительные и отрицательные предсказания
        pos_mask = labels > 0.5
        neg_mask = labels < 0.5
        pos_preds, pos_labels = preds[pos_mask], labels[pos_mask]
        neg_preds, neg_labels = preds[neg_mask], labels[neg_mask]

        if pos_preds.numel() == 0 or neg_preds.numel() == 0:
            return torch.tensor(0., device=preds.device)

        # Веса отражают уверенность soft-label
        pos_w = self.pos_weight * (pos_labels - 0.5)
        neg_w = self.neg_weight * (0.5 - neg_labels)
        if sample_weights is not None:
            sw = sample_weights.unsqueeze(1).expand_as(labels)
            pos_w *= sw[pos_mask]
            neg_w *= sw[neg_mask]

        # Считаем pairwise-разности и лог-лосс
        diff = pos_preds.unsqueeze(1) - neg_preds.unsqueeze(0)
        loss_matrix = torch.log1p(torch.exp(-self.margin * diff))

        # Усредняем по всем парам с учётом весов
        return (loss_matrix * pos_w.unsqueeze(1) * neg_w.unsqueeze(0)).mean()

Что еще работало и не работало:
Semi-supervised learning на неразмеченном датасете:
Сначала обучил 10 моделей EfficientNet на размеченной части.
Сгенерировал «псевдо-лейблы» для неразмеченных данных.
Обучил следующий раунд моделей уже на объединённом наборе.

Отказался от самодистилляции и сложных схем — не заводилось.

Лотерея или мастерство? Автор поднялся с 11 места на 4-е на прайвете! Возможно, дело не только в удаче.

4th place solution | Kaggle

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

🔥12🤔3❤1😨1

2.65K viewsedited 07:21

Запрети мне псевдолейблить

Forwarded from Small Data Science for Russian Adventurers

#соревнование
Обзор международных соревнований в DS за прошлый год: на каких платформах, что используют победители, какие конкурсы проходят и т.п. Такие отчёты каждый год выходят (но тут ни разу ссылок на них не давал).
https://mlcontests.com/state-of-machine-learning-competitions-2024/

❤12

2.04K views12:54

Запрети мне псевдолейблить

У вас каждый день дейли не потому, что дейли эффективны. У вас дейли потому, что в книжке »Scrum. Революционный метод управления проектами. Джефф Сазерленд« написано, что их можно делать чтобы инженеры-механики могли рассказать о своих проблемах и о том, что им не хватает запчастей

Скелетрон вернется с умными мыслями завтра

👍13❤10💩5🤡5🤮4😭2😎1

2.47K viewsedited 09:06