ML Boost Camp – Telegram
ML Boost Camp
1.21K subscribers
6 photos
39 links
Канал о Kaggle bootcamp!
Будут лекции, живое общение и совместное участие в соревнованиях.
Старт в начале июля!
Download Telegram
Через минуту начинаем лекцию по NLP.
Вопросы можно задавать тут
Live stream scheduled for
Live stream started
Live stream finished (1 hour)
Пока мы готовим новую лекцию, у вас есть уникальная возможность посмотреть разборы соревнований, в которых я(Слава) участвовал. В каждом видео есть кусочек теории, секреты и приемы

1) Егэ по русскому это было мое первое соревнование с которого начался мой путь в светлое будущее. Можете умилиться, как неправильно я произношу Bert. От начала изучения питона и мл до этого соревнования прошло 3 месяца. В рамках него я изучал nlp

2) Прогнозирование короны второе соревнования. Тут я впервые столкнулся с деревьями, бустингами, табличками и понял, что это не мое. Так же погрузился в изучение визуализации и EDA

3) Потом я перешел на kaggle и первое соревнование было по звуку. Тут емко содержится теория по аудио и приемы, которые я использовал. Золото этого соревнования дало мне понять. что бояться ничего не надо(кроме ос)

4) Ну и замыкаем еще двумя соревнованиями, и снова по NLP. Первое - оценка сложности текста. Второе - извлечение сущностей. Каждое дополняет другое и глубже погружает в NLP

Приятного просмотра!
🔥176👍6
Публикуем фотографии наших победителей!

Ещё раз большое спасибо им за интересные EDA 🔑
И, возможно, вы уже догадались, о чём будет наша следующая лекция!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥173
Рады поделиться с вами новой лекцией про Computer Vision!

Обсудили основные типы задач, особенности архитектур, а так же популярные трюки которые помогут улучшить ваши результаты.

Скоро выложим интересное интервью, где обсудили популярные библиотеки для задач компьютерного зрения и не только, следите за анонсами.
🔥274
Всем привет! Надеюсь все отошли от новогодних праздников и готовы смотреть новое видео!
В этом интервью Павел Якубовский, инженер Hugging Face и создатель популярной библиотеки Segmentation Models, делится своим опытом разработки open-source проектов, рассказывает о развитии своей карьеры и даёт рекомендации по работе с компьютерным зрением.
🔥246👍4🎉2
Всем привет!
Для тех, кто пропустил или недавно присоединился, публикуем список лекций нашего Boostcamp:

1 О Kaggle, план Bootcamp, Roadmap
2 EDA, основные шаги, лики и разбор на примере соревнования
3 Версионирование экспериментов
4 Изучаем NLP. От основ до GPT
5 Computer Vision. Задачи, Архитектуры, Трюки
6 Павел Якубовский: Segmentation Models, Hugging Face и тренды в CV.

Кажется, мы не затронули только аудио и табличные данные. Но у нас есть что порекомендовать!

🎧 По аудио:
Посмотрите запись от ODS, где Владислав рассказал про призовое решение в соревновании Cornell Birdcall Identification:
Владислав подробно объяснил, как аудио-сигнал преобразуется в мел-спектрограмму, с которой можно работать так же, как с изображениями, используя алгоритмы CV. Также он поделился особенностями аугментаций для аудио.

📊 По табличным данным:
Это всё ещё самые популярные соревнования на Kaggle, и по ним огромное количество материалов. Но если вам хочется отдельной лекции или вы хотите узнать больше, напишите в комментариях — учтём ваши пожелания!
18🔥10👍2
Привет, друзья!

После небольшого перерыва мы снова с вами и готовы к новым активностям!

С этого момента каждый день мы будем публиковать краткие обзоры актуальных соревнований. А те из них, что вызовут наибольший интерес, разберём подробнее — поделимся идеями, подходами и возможными решениями.

Также рады анонсировать тестовый запуск нашего бота для поиска сокомандников — @MLTeamSearchBot! С его помощью вы сможете просматривать активные соревнования, находить единомышленников и заводить новых друзей. Бот сейчас в активной разработке, поэтому будем признательны за ваши отзывы и предложения!
🔥25🍾4🎉2
BirdCLEF+ 2025

Цель: Основная задача — разработать модели машинного обучения для автоматической идентификации звуков животных, включая птиц, амфибий, млекопитающих и насекомых. Соревнование направлено на поддержку биоразнообразия и совершенствование технологий мониторинга дикой природы. В фокусе — Средняя долина Магдалены в Колумбии, регион с невероятным биологическим разнообразием.

Животные, представленные в соревновании:

🐦 Птицы — туканы, попугаи, трогоны, тана́гры, козодои
🐸 Амфибии — древолазы, стеклянные лягушки, древесные жабы
🐒 Млекопитающие — коати, обезьяны, опоссумы, летучие мыши
🐞 Насекомые — сверчки, цикады, шершни, жуки

Данные:

Аудио (формат .ogg) — полевые записи, собранные автономными устройствами.
Метки присутствия видов, включая координаты, время и идентификаторы.
Таксономическая информация — названия на латыни и местных языках.
Метаданные — геопозиция, время суток, качество записи, устройство и др.

Метрика: Оценка моделей проводится по модифицированной macro-averaged ROC-AUC, которая рассчитывается только по тем классам (видам), в которых присутствуют положительные примеры. Это позволяет избежать искажения метрики из-за редких или отсутствующих в тесте классов.

Сроки:

📅 10 марта 2025 — старт соревнования
29 мая 2025 — дедлайн на вход в соревнование
🤝 29 мая 2025 — последний день для объединения в команды
📤 5 июня 2025 — дедлайн на отправку финальных решений

🔗 Ссылка на соревнование: BirdCLEF+ 2025

🐥Рекомендуем посмотреть разбор призового решения Владислава Cornell Birdcall Identification, а также призовые решения предыдущих BirdCLEF на Kaggle.
🤖И найти себе команду в боте @MLTeamSearchBot.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10🕊3🏆3🤔1
🧬 Stanford RNA 3D Folding

Цель:
Построить модели, способные предсказывать трёхмерную структуру РНК по её последовательности. Эта задача критически важна для фундаментальной науки и разработки новых методов лечения — от понимания функций некодирующих РНК до дизайна РНК-основанных терапий.

Данные:
Последовательности РНК (буквы A, U, G, C).
Точные 3D-координаты атомов (экспериментально определённые) для обучения.
Дополнительные метаданные (длина цепи, химические свойства и пр.).

Метрика:
💡 Используется TM-score (Template Modeling Score) — метрика, оценивающая структурное сходство между предсказанной и эталонной 3D-структурой.
Диапазон значений: от 0 до 1, чем выше тем лучше.
Оценка проводится по 5 предсказаниям на каждую РНК, в зачет идет лучшее из пяти, а итоговая метрика — это среднее по всем целевым РНК

🔬 Выровненные структуры сравниваются с эталоном независимо от последовательности (US-align используется для привязки по пространственным координатам).

Сроки:
🟢 27 февраля 2025 — старт соревнования
🥇 23 апреля 2025 — обновление паблик-таблицы, а также Early Sharing Prizes 🎁
22 мая 2025 — дедлайн для входа в соревнование и объединения в команды
📤 29 мая 2025 — последний день для сабмитов
🧪 24 сентября 2025 — официальный конец соревнования после пост-оценки новых RNA-последовательностей

Post-Competition:
После дедлайна модель участников будет дополнительно оцениваться на до 40 новых RNA-последовательностях, которые появятся уже после завершения основной фазы. Это уникальный формат соревнования с "живым" leaderboard.

🔗 Ссылка на соревнование: Stanford RNA 3D Folding
🏆Рекомендуем посмотреть призовые решения предыдущих соревнований на Kaggle связанных с RNA(РНК).
🤖И найти себе команду в боте @MLTeamSearchBot.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥132🏆2👾1
Заметил интересную активность, я бы сам поучаствовал, будь свободное время! Сколтех проводит бесплатную Летнюю школу машинного обучения SMILES-2025 в Китае (12 дней, июль), где ведущие эксперты из Сколтеха, AIRI и HIT будут делиться знаниями о генеративных методах ИИ: LLM, мультиагентные системы, безопасный и визуальный ИИ. Участие офлайн и онлайн, всё бесплатно (включая перелёт и проживание), заявки принимаются до 20 апреля. https://smiles.skoltech.ru/school2025_rus
🔥94👍1👨‍💻1
Drawing with LLMs

🏆 Суть соревнования
Участникам нужно по текстовому описанию сгенерировать SVG-код, максимально точно визуализирующий сцену. Главная цель — разработать практичные и переиспользуемые модели, оформленные как Kaggle Packages, с чётким и воспроизводимым предсказанием изображения в SVG-формате.

📦 Особенности
- Это Package Competition — новая система, где вы создаёте Python-пакет с классом Model и методом predict(prompt), возвращающим SVG-код.
- Все сабмиты — это ноутбуки Kaggle, собирающие и подающие ваш пакет на проверку.
- Используется новая инфраструктура kagglehub — модели должны быть воспроизводимыми, модульными и без внешнего доступа к интернету.

⚙️ Требования
- SVG должен соответствовать ограниченному набору тегов и атрибутов.
- Размер SVG — не более 10 000 байт.
- Без растровых данных и внешних ссылок.
- Ответ должен быть сгенерирован менее чем за 5 минут.
- Весь пайплайн генерации на тестовом сете — до 9 часов.

📊 Оценка
Оценка проходит в несколько этапов:
1) SVG-проверка (размер, структура, ограничения).
2) Конвертация в PNG.
3) VQA-анализ (с помощью модели PaliGemma): задаются 4 вопроса по изображению, проверяется соответствие описанию.
4) OCR-проверка: если на изображении более 4 символов текста — начисляется штраф.
5) Aesthetic Score — эстетическая оценка с помощью CLIP-модели.

📌 Финальный балл — гармоническое среднее между VQA-оценкой и эстетикой (с приоритетом на VQA).

🗓 Таймлайн
🟢 Старт: 25 февраля 2025
🟡 Дедлайн входа и командных слияний: 19 мая 2025
🔴 Финальный дедлайн: 27 мая 2025

💰 Призы
🥇 1-е место — $12,000
🥈 2-5 места — от $10,000 до $8,000

🏆Рекомендуем посмотреть видео по NLP
🤖И найти себе команду в боте @MLTeamSearchBot.
🔥92😱1
📸 Image Matching Challenge 2025

Цель:
Разработать алгоритмы, которые:

Группируют изображения, относящиеся к одной сцене (или исключают «лишние» — outliers).
Восстанавливают позу камеры (матрица поворота + вектор смещения) для каждой сцены — задача из области Structure-from-Motion (SfM).

💡 Представьте, что вы открыли коробку с пазлом… а в ней перемешаны детали от разных наборов. Задача: сначала разделить изображения по "сценам", а затем точно «собрать» каждую из них в 3D.

Что в данных:

Много наборов изображений, каждая сцена содержит несколько ракурсов.
Некоторые изображения — outliers (не относятся ни к какой сцене).
Для train-набора доступны матрицы поворота (R) и векторы смещения (T) для всех "правильных" изображений.

В test — только изображения, вам нужно предсказать кластер (сцену) и позу камеры.

📊 Метрика, комбинирующая:

mAA (mean Average Accuracy): аналог recall — сколько правильных изображений попало в кластер.
Clustering Score: аналог precision — сколько из кластера действительно относится к сцене.
Финальный результат — гармоническое среднее mAA и Clustering Score, усреднённое по всем наборам.

Сроки:

🚀 Старт: 1 апреля 2025
🤝 Регистрация и команды: до 26 мая
📤 Финальные сабмиты: до 2 июня
🧠 Workshop на CVPR 2025: 11 июня 2025 (Нэшвилл, США или онлайн)

💰 Призовой фонд — $50,000 и шанс выступить на CVPR!
🥇 1 место: $12,000
🥈 2 место: $10,000
🥉 3–5 места: $10K / $10K / $8K

🔗 Ссылка на соревнование: Image Matching Challenge 2025

🏆Рекомендуем посмотреть интервью с победителем прошлого Image Matching Challenge 2024, где Владислав Останькович рассказал как ему удалось занять 1 место 🥇
А так же видео про Computer Vision.
🤖И найти себе команду в боте @MLTeamSearchBot.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥102🏆2
📣 BYU - Locating Bacterial Flagellar Motors 2025 (Kaggle)
🦠 Что ищем?
Флагеллярные моторы — это крошечные молекулярные "двигатели" на поверхности бактерий, которые вращают жгутики и обеспечивают их движение. Один из самых эффективных природных механизмов на наноуровне!

В этом соревновании вы будете определять наличие и точные координаты таких моторов в 3D-томограммах бактерий, полученных методом криоэлектронной томографии (cryo-ET).

📦 Данные:
3D-томограммы как наборы 2D JPEG-срезов
Координаты моторов в формате (z, y, x)
В тесте: томограммы с 0 или 1 мотором

📊 Метрика:
F₂-score — акцент на Recall
Предсказание засчитывается, если находится в пределах 1000 Å от реального мотора

📅 Сроки:
📆 5 марта 2025 — старт
🛑 28 мая 2025 — дедлайн входа и объединения в команды
📤 4 июня 2025 — дедлайн по сабмитам

💰 Призовой фонд — $65,000:
🥇 1 место: $20,000
🥈 2 место: $15,000
🥉 3 место: $12,000
4 место: $10,000
5 место: $8,000

🔗 Ссылка на соревнование: BYU - Locating Bacterial Flagellar Motors 2025
Рекомендуем посмотреть видео про Computer Vision.
🤖И найти себе команду в боте @MLTeamSearchBot.
8🔥3👍1🤯1
🌍 Yale/UNC-CH - Geophysical Waveform Inversion
Цель:
Создать модель, способную по сейсмическим волновым данным восстанавливать структуру подземных слоёв — задачу, известную как Full Waveform Inversion (FWI). Это важно для геофизики, медицины и диагностики материалов.

🔬 Почему это сложно?

Традиционные физические методы точны, но очень медленные и нестабильны при слабом/шумном сигнале.

Чистые ML-модели работают быстрее, но требуют огромных объёмов размеченных данных и плохо обобщаются на новые условия.
🏁 Ваша задача — объединить лучшее из двух миров: физику + ML.

📦 Данные:
Данные основаны на OpenFWI — большом открытом бенчмарке для сейсмической инверсии.

В соревновании участвуют три семейства подземных моделей:
Vel — плавные изменения скорости
Fault — с разломами и смещениями
Style — сгенерированные с разными геологическими стилями

Каждая пара включает:
Волновой отклик (waveform) — вход модели
Карту скоростей (velocity map) — целевая переменная

Один файл содержит 500 примеров. Вся обучающая выборка разбита на файлы по 500 штук.
💡 Можно использовать полную версию OpenFWI (вне Kaggle) для дообучения моделей.

📊 Метрика:
Средняя абсолютная ошибка (MAE) между предсказанным и истинным скоростным профилем.

📅 Сроки:
🚀 Старт: 8 апреля 2025
Команды до: 23 июня
📤 Сабмиты до: 30 июня

💰 Призовой фонд — $50,000:
🥇 $12,000
🥈 $10,000
🥉 $10,000
4-е место: $10,000
5-е место: $8,000
🔗 Ссылка на соревнование: Yale/UNC-CH - Geophysical Waveform Inversion
Рекомендуем посмотреть видео про Computer Vision.
🤖И найти себе команду в боте @MLTeamSearchBot.
🔥84🎉2
👾 ARC Prize 2025
Цель:
Разработать ИИ, способный осваивать новые навыки и решать открытые задачи, а не только выполнять типовые сценарии обучения на больших датасетах.
Проект направлен на продвижение к настоящему искусственному общему интеллекту (AGI).

📦 Данные:
Обновлённый датасет ARC-AGI-2 с задачами, проверяющими абстрактное мышление и обобщение.
Задачи калиброваны людьми и требуют от модели обучаться на лету.
Каждая задача — это пара "ввод-вывод" на небольших решётках (гриды), где требуется понять скрытую закономерность.

📊 Метрика:
Процент правильно решённых задач:
На каждую задачу даётся 2 попытки.
Если хотя бы одна попытка правильная → +1 балл за тестовый случай.
Итоговый скор = среднее по всем задачам.

📅 Сроки:
🚀 Старт: 24 марта 2025
Регистрация и команды: до 27 октября 2025
📤 Финальные сабмиты: до 3 ноября 2025
📝 Подача научных работ: до 9 ноября 2025

💰 Призы — до $725,000:
📈 $125,000 за прогресс (топ-5 команд)
🏆 $600,000 Гран-при, если набрать ≥85% правильных решений
✍️ $75,000 за лучшие научные статьи

🔗 Ссылка на соревнование: ARC Prize 2025
Рекомендуем посмотреть решения с прошлого соревнования ARC Prize 2024
🤖И найти себе команду в боте @MLTeamSearchBot.
😱9🔥4👾2