У вас вообще появились продакты потому, что Мэнти Кейган написал о том, какие они полезные в книге »Inspired«. При этом он опирался на свой десятилетний опыт работы инженером в HP с 1980 по 1990. После этого он еще 10 лет совмещал роли CTO и CPO в Netscape и Ebay. И в 2002 (за 15 лет до публикации), он ушел в консалтеры и продает свой ценнейший опыт за почасовую оплату. Смог бы ваш продакт буквально придумать объекто-ориентированное программирование в лабе HP? Надеюсь, да
Скелетрон пока не вернется, я так книжки не успеваю быстро читать
Скелетрон пока не вернется, я так книжки не успеваю быстро читать
❤14😁6👍1👏1😴1
Теперь на каггле дают 'предупреждения' за то, что выкладываешь даталик в паблик.
Два предупреждения- бан
https://www.kaggle.com/competitions/neurips-open-polymer-prediction-2025/discussion/588565
🤡️️️️🤡️️️️🤡️️️️
Два предупреждения- бан
https://www.kaggle.com/competitions/neurips-open-polymer-prediction-2025/discussion/588565
🤡️️️️🤡️️️️🤡️️️️
Kaggle
NeurIPS - Open Polymer Prediction 2025
Predicting polymer properties with machine learning to accelerate sustainable materials research.
🤡29❤2
Вчера все верно догадались: Кагл убрал дискашны насовсем. Теперь осталась только ачивка Kaggle Legacy discussion Master/GM. А еще он убрал Novice/Contributor и оставил просто Unranked/Expert/master/GM
И это отлично. Каглу уже давно пора воровать элементы вовлечения у другого популярного сайта и толкать аналитику катализируюшую гиперфокус. Только не за подписку, а ради вовлечения пользователей и удержания. Теперь можно посмотреть, как менялся ваш рейтинг во времени. Верю, что ASI построят все равно кагглеры, а не резерчеры.
Из открытий- ранкинг не так быстро падает, как я ожидал. Все еще есть смысл концентрироваться на циферках.
А еще теперь апвоуты ноутбуков считаются только от экспертов и форк ноутбуков автоматически ставит на него палец вверх.
И это отлично. Каглу уже давно пора воровать элементы вовлечения у другого популярного сайта и толкать аналитику катализируюшую гиперфокус. Только не за подписку, а ради вовлечения пользователей и удержания. Теперь можно посмотреть, как менялся ваш рейтинг во времени. Верю, что ASI построят все равно кагглеры, а не резерчеры.
Из открытий- ранкинг не так быстро падает, как я ожидал. Все еще есть смысл концентрироваться на циферках.
А еще теперь апвоуты ноутбуков считаются только от экспертов и форк ноутбуков автоматически ставит на него палец вверх.
🤝5🔥4💩4🤡3❤2👍1
Без багов кстати не обошлось:
Из-за изменения системы учета лайков на ноутбук, циферки теперь расходятся. В профиле я бывал максимум 283, а судя по графику бывал и повыше
Из-за изменения системы учета лайков на ноутбук, циферки теперь расходятся. В профиле я бывал максимум 283, а судя по графику бывал и повыше
🤡6🤔3❤2💩2
Топ-2 в #BirdClef2025
В этот раз опытне птичники, у которых в команде чел с первым местом в 2022 и 2023 годах!
📊 Данные
Использовали данные из прошлых соревнований, что собственно и помогала в прошлые года +
Подтянули дополнительно записи из Xeno Archive.
Тут помог баг, который был обнаружен еще в 2023: API Xeno Archive выдаёт максимум 500 семплов на вид — большинство команд этого не учли. Багу два года, и его никто не чинит. Кто знает- тот знает
🎛️ Предобработка
Для обучения берём первые 7 секунд каждого файла и рандомно вырезаем 5 секунд.
Баланс между разнообразием данных и интуицией: голос птицы чаще слышен в начале записи.
🛠️ Архитектура и оптимизация
tf_efficientnetv2_s + RAdam
eca_nfnet_l0 + AdamW
Обе модели тренировали 50 эпох
Loss: Focal + BCE
Scheduller: Cosine LR
⚖️ Веса семплов
Учли с весами, чтобы компенсировать дисбаланс классов:
🚀 Ключевые бусты
1. Предтренинг на всём Xeno Archive
Вычистили низкочастотные классы и текущее тесто-трейн
Предобучили на задаче классификации и получили бекбон с глубоким пониманием спектрограмм записей животных
Результат: 0.84 → 0.87
2. Псевдолейблинг(запрещенная техника)
Предсказываем на неразмеченных данных → pseudo1
Оставляем только скоры > 0.5 → pseudo2
Зануляем слабые метки (< 0.1): pseudo2[pseudo2 < 0.1] = 0
Обучаем модель на таргет pseudo2 и повторяем цикл
После двух итераций: 0.87 → 0.89 → 0.91 (третий круг не даёт профита)
3. TTA
Сдвигали записи в Test time augmentation на 2.5 секунды влево и вправо, а потом усредняли предсказания.
0.91 -> 0.922
В общем опыт прошлых соревнований доовольно сильно решает, особенно если помнишь интересные баги связанные с источниками данных
В этот раз опытне птичники, у которых в команде чел с первым местом в 2022 и 2023 годах!
📊 Данные
Использовали данные из прошлых соревнований, что собственно и помогала в прошлые года +
Подтянули дополнительно записи из Xeno Archive.
Тут помог баг, который был обнаружен еще в 2023: API Xeno Archive выдаёт максимум 500 семплов на вид — большинство команд этого не учли. Багу два года, и его никто не чинит. Кто знает- тот знает
🎛️ Предобработка
Для обучения берём первые 7 секунд каждого файла и рандомно вырезаем 5 секунд.
Баланс между разнообразием данных и интуицией: голос птицы чаще слышен в начале записи.
🛠️ Архитектура и оптимизация
tf_efficientnetv2_s + RAdam
eca_nfnet_l0 + AdamW
Обе модели тренировали 50 эпох
Loss: Focal + BCE
Scheduller: Cosine LR
⚖️ Веса семплов
Учли с весами, чтобы компенсировать дисбаланс классов:
python
sample_weights = (
all_primary_labels.value_counts() /
all_primary_labels.value_counts().sum()
) ** (-0.5)
🚀 Ключевые бусты
1. Предтренинг на всём Xeno Archive
Вычистили низкочастотные классы и текущее тесто-трейн
Предобучили на задаче классификации и получили бекбон с глубоким пониманием спектрограмм записей животных
Результат: 0.84 → 0.87
2. Псевдолейблинг
Предсказываем на неразмеченных данных → pseudo1
Оставляем только скоры > 0.5 → pseudo2
Зануляем слабые метки (< 0.1): pseudo2[pseudo2 < 0.1] = 0
Обучаем модель на таргет pseudo2 и повторяем цикл
После двух итераций: 0.87 → 0.89 → 0.91 (третий круг не даёт профита)
3. TTA
Сдвигали записи в Test time augmentation на 2.5 секунды влево и вправо, а потом усредняли предсказания.
0.91 -> 0.922
В общем опыт прошлых соревнований доовольно сильно решает, особенно если помнишь интересные баги связанные с источниками данных
❤21⚡3
Топ-1 в #BirdClef2025 от Никиты Бабича запретите ему псевдолйблить
Никита всё соревнование доминировал — был на первом или втором месте. Я лично не видел его ниже чем на втором.
Данные
Дополнительные птицы
Докачал из архива Xeno ещё 5 489 записей по тем же классам, что и в трейне.
Дополнительные лягушки и насекомые из других таксонов
17 197 записей насекомых и амфибий, в том числе не входящих в лейблы для соревнования. Амфибии и насекомые имеют высокую частоту повторяющихся специфичных звуков, что сильно отличается от птиц — отлично прокачивает модель на низкочастотных и “других” классах.
SED-модели (Sound Event Detection).
Прошлые участники тоже их использовали, но я хотел именно тут объяснить что за SED такой.
Классическая классификация говорит «что это за звук», а SED ещё и «где он начинается и где кончается».
На шумных данных, где вокруг слышно несколько видов на одной записи, это был ключ к успеху вместе с псевдолейблингом.
По сути это мост от per-sample к per-frame разметке, похожий на MIL-задачу. Сильно мне напоминает MIL модели, которые делают что-то похожее, но на картинках
На картинке пример инференса SED: как и почему он помогает на шуме.
Валидация
Нормальной валидации не нашлось, поэтому Никита валидировался по ЛБ. :chad:
Многоэтапное обучение
Бейзлайн
15 эпох, Cross-Entropy, AdamW, Cosine Scheduler
backbone’ы: EfficientNet-0 + RegNetY-8
LB: 0.872
Псевдолейблинг I + MixUp
Генерим псевдолейблы на неразмеченной части.
Смешиваем MixUp: настоящие лейблы + псевдолейблы (малый вес последних).
Добавляем StochasticDepth (drop whole conv-блоки, p=0.15). StochasticDepth- это когда у нас есть дропауты, которые выкидывают целые блоки из бекбона и глубина получается недетерминированной.
Тренируем 25–35 эпох.
LB: 0.872 → 0.898
Power Scaling + псевдолейблинг II
Просто в лоб вторая итерация давала слишком шумные псевдолейблы, которые нельзя было повторно переиспользовать.
Решение:
new_preds_i = preds_i^(1/power_c) / sum(preds_j^(1/power_c))
Это позволило пройти 4 раунда псевдолейблинга с улучшением качества.
LB: 0.898 → 0.930
Отдельный пайплайн для насекомых и амфибий
Тренируем классификатор на этих данных.
Берём предикты по нужным классам из трейна и заменяем ими результаты в основном ансамбле.
LB: 0.930 → 0.933
В конечно итоге собираем ансамбль:
EfficientNet-l0, B4, B3 (3 раунда псевдолейблинга)
RegNetY-016 (2 штуки, 4 раунда)
RegNetY-008 (1 штука, 1 раунд)
Отдельный EfficientNet-B0 для классификации насекомых и амфибий
Из этого решения наверно для себя самыми горячими идеям вынесу:
1. PowerTransform для псевдолейблов, чтобы идти в несколько раундов. Идея будто даже похожая на жесткие псевдолейблы чем-то
2. SED как способ уточнить разметку на псевдолейблах
Никита всё соревнование доминировал — был на первом или втором месте. Я лично не видел его ниже чем на втором.
Данные
Дополнительные птицы
Докачал из архива Xeno ещё 5 489 записей по тем же классам, что и в трейне.
Дополнительные лягушки и насекомые из других таксонов
17 197 записей насекомых и амфибий, в том числе не входящих в лейблы для соревнования. Амфибии и насекомые имеют высокую частоту повторяющихся специфичных звуков, что сильно отличается от птиц — отлично прокачивает модель на низкочастотных и “других” классах.
SED-модели (Sound Event Detection).
Прошлые участники тоже их использовали, но я хотел именно тут объяснить что за SED такой.
Классическая классификация говорит «что это за звук», а SED ещё и «где он начинается и где кончается».
На шумных данных, где вокруг слышно несколько видов на одной записи, это был ключ к успеху вместе с псевдолейблингом.
По сути это мост от per-sample к per-frame разметке, похожий на MIL-задачу. Сильно мне напоминает MIL модели, которые делают что-то похожее, но на картинках
На картинке пример инференса SED: как и почему он помогает на шуме.
Валидация
Нормальной валидации не нашлось, поэтому Никита валидировался по ЛБ. :chad:
Многоэтапное обучение
Бейзлайн
15 эпох, Cross-Entropy, AdamW, Cosine Scheduler
backbone’ы: EfficientNet-0 + RegNetY-8
LB: 0.872
Псевдолейблинг I + MixUp
Генерим псевдолейблы на неразмеченной части.
Смешиваем MixUp: настоящие лейблы + псевдолейблы (малый вес последних).
Добавляем StochasticDepth (drop whole conv-блоки, p=0.15). StochasticDepth- это когда у нас есть дропауты, которые выкидывают целые блоки из бекбона и глубина получается недетерминированной.
Тренируем 25–35 эпох.
LB: 0.872 → 0.898
Power Scaling + псевдолейблинг II
Просто в лоб вторая итерация давала слишком шумные псевдолейблы, которые нельзя было повторно переиспользовать.
Решение:
new_preds_i = preds_i^(1/power_c) / sum(preds_j^(1/power_c))
Это позволило пройти 4 раунда псевдолейблинга с улучшением качества.
LB: 0.898 → 0.930
Отдельный пайплайн для насекомых и амфибий
Тренируем классификатор на этих данных.
Берём предикты по нужным классам из трейна и заменяем ими результаты в основном ансамбле.
LB: 0.930 → 0.933
В конечно итоге собираем ансамбль:
EfficientNet-l0, B4, B3 (3 раунда псевдолейблинга)
RegNetY-016 (2 штуки, 4 раунда)
RegNetY-008 (1 штука, 1 раунд)
Отдельный EfficientNet-B0 для классификации насекомых и амфибий
Из этого решения наверно для себя самыми горячими идеям вынесу:
1. PowerTransform для псевдолейблов, чтобы идти в несколько раундов. Идея будто даже похожая на жесткие псевдолейблы чем-то
2. SED как способ уточнить разметку на псевдолейблах
❤27🤯9🔥2🍌1 1 1
Пора создать канал в мессенджере, где можно вычислять ставящих клоунов по госуслугам?
Да 😍
Нет 🗿
Да 😍
Нет 🗿
🤡99😍38🗿23❤3😁3😈3🖕2🤝2
Папищики, бесплатная реклама Rust тулзами:
Вместо того, чтобы использовать по большим файлам grep, можно установить себе😡
А то мне тут понадобилось поискать по логам на 200 гб в формате txt и это оказывается может быть долго
И теперь у вас уже 8 тредов, вместо одного. А можно ведь и больше тредов поставить
Вместо того, чтобы использовать по большим файлам grep, можно установить себе
ripgrepи пользоваться мультитредингом, чтобы искать по патерну в N раз быстрее
А то мне тут понадобилось поискать по логам на 200 гб в формате txt и это оказывается может быть долго
!rg -Fi 'keyword1' my_big_dump.txt -j8 > search_result.txt
И теперь у вас уже 8 тредов, вместо одного. А можно ведь и больше тредов поставить
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20❤6🤯6😱2🤡2👍1
Волчат уволили из Газпром медиа. Потешно, что за год никто не заметил разницы, но это скорее говорит о самом работодателе, чем о работниках. Хотя я уже давно заметил, что лучшие наймы- это когда ты знакомых с прошлых работ кандидата спросил про то, какой он человек и инженер. Always has been
https://news.1rj.ru/str/rockyourdata/5344
А еще Дуров включил принудительные платные лайки и мне это не нравится. Теперь они отображаются даже если их никто не поставил. Слишком навязчиво.
https://news.1rj.ru/str/rockyourdata/5344
А еще Дуров включил принудительные платные лайки и мне это не нравится. Теперь они отображаются даже если их никто не поставил. Слишком навязчиво.
Telegram
Инжиниринг Данных
В русскоязычном IT прямо сейчас разворачивается один из крупнейших скандалов в этом году. Я не могу пройти мимо и хочу высказаться.
Для контекста. Из компании Газпром-Медиа уволили накрутчика опыта, который работал над Rutube. Сотрудники службы безопасности…
Для контекста. Из компании Газпром-Медиа уволили накрутчика опыта, который работал над Rutube. Сотрудники службы безопасности…
❤13👍5🗿5🍌2
Пока я мало пишу в канал про свои соревнования, позволю себе украсть вдохновение у @abacabadabacaba404 и предложить вам почитать классный блогпост про КФ. Автор дважды брал золото IOI и в этом году взял серебро:
https://codeforces.com/blog/entry/142591
Отправьте своим школьникам и первокурсникам, если они хотят быть лучшими
https://codeforces.com/blog/entry/142591
Отправьте своим школьникам и первокурсникам, если они хотят быть лучшими
Codeforces
FAQ, Advice & AMA
This post assumes you're super ambitious.
❤12👍3🍌2🤝1
Forwarded from Information Retriever
RecSys Challenge 2025.
Я уже рассказывал, что в этом году мы заняли четвертое место на RecSys Challenge. В июле подали статью на воркшоп соревнования, который проходит на самой конфе RecSys. Статью приняли! Мы доделали camera-ready версию, и с сегодняшнего дня подробное описание нашего решения можно почитать на arXiv.
От ревьюверов есть strong accept и комментарий “goldmine of practical insights” :)
Пригодится как разработчикам рексистем, так и участникам всевозможных соревнований по рекомендашкам.
Ссылочка — https://arxiv.org/abs/2508.06970
Я уже рассказывал, что в этом году мы заняли четвертое место на RecSys Challenge. В июле подали статью на воркшоп соревнования, который проходит на самой конфе RecSys. Статью приняли! Мы доделали camera-ready версию, и с сегодняшнего дня подробное описание нашего решения можно почитать на arXiv.
От ревьюверов есть strong accept и комментарий “goldmine of practical insights” :)
Пригодится как разработчикам рексистем, так и участникам всевозможных соревнований по рекомендашкам.
Ссылочка — https://arxiv.org/abs/2508.06970
👍17🍌5🔥2 2✍1
Ну раз H1b больше не получишь, придется вам тоже фармить кгм и надеяться получить о1 визу
😭17⚡5👍5😁3❤2🍌2🤡1
Последний сабмит в соревнование сделал. Молимся Горку и Морку о удачном броске вверх и ждем ночной прокрас прайвета.
Вы можете присоединиться ко мне, а можете поставить клоунов, не помню как вам там больше нравится
Вы можете присоединиться ко мне, а можете поставить клоунов, не помню как вам там больше нравится
🤡48🙏19🔥6❤3🍌2
Сильно, но хитро поднялись на прайвете. Риск был калькулированный, была интуиция что минимум четверо из золотой зоны резко опустятся, но не было уверенности, что это будем не мы.
Стало быть, второе золото нафармлено, взят второй ариел в ряд и третий год подряд будет invited talk на neuralIPS от вашего любимого блогера.
Честно скажу, без команды ничего бы не вышло.
На 5 месте кстати наш ВМКшный коллега, который вообще через физику решал соревнование. Выложат райтапы- разберу вам самое лучшее с этого года.
Эмодзи клоуна доступна, мб этим постом обновим предыдущией рекорд в 39 штук
Стало быть, второе золото нафармлено, взят второй ариел в ряд и третий год подряд будет invited talk на neuralIPS от вашего любимого блогера.
Честно скажу, без команды ничего бы не вышло.
На 5 месте кстати наш ВМКшный коллега, который вообще через физику решал соревнование. Выложат райтапы- разберу вам самое лучшее с этого года.
Эмодзи клоуна доступна, мб этим постом обновим предыдущией рекорд в 39 штук
🤡82❤52🔥19👍12 4🍌3🤝2💩1