ML Boost Camp – Telegram
ML Boost Camp
1.21K subscribers
6 photos
39 links
Канал о Kaggle bootcamp!
Будут лекции, живое общение и совместное участие в соревнованиях.
Старт в начале июля!
Download Telegram
Публикуем фотографии наших победителей!

Ещё раз большое спасибо им за интересные EDA 🔑
И, возможно, вы уже догадались, о чём будет наша следующая лекция!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥173
Рады поделиться с вами новой лекцией про Computer Vision!

Обсудили основные типы задач, особенности архитектур, а так же популярные трюки которые помогут улучшить ваши результаты.

Скоро выложим интересное интервью, где обсудили популярные библиотеки для задач компьютерного зрения и не только, следите за анонсами.
🔥274
Всем привет! Надеюсь все отошли от новогодних праздников и готовы смотреть новое видео!
В этом интервью Павел Якубовский, инженер Hugging Face и создатель популярной библиотеки Segmentation Models, делится своим опытом разработки open-source проектов, рассказывает о развитии своей карьеры и даёт рекомендации по работе с компьютерным зрением.
🔥246👍4🎉2
Всем привет!
Для тех, кто пропустил или недавно присоединился, публикуем список лекций нашего Boostcamp:

1 О Kaggle, план Bootcamp, Roadmap
2 EDA, основные шаги, лики и разбор на примере соревнования
3 Версионирование экспериментов
4 Изучаем NLP. От основ до GPT
5 Computer Vision. Задачи, Архитектуры, Трюки
6 Павел Якубовский: Segmentation Models, Hugging Face и тренды в CV.

Кажется, мы не затронули только аудио и табличные данные. Но у нас есть что порекомендовать!

🎧 По аудио:
Посмотрите запись от ODS, где Владислав рассказал про призовое решение в соревновании Cornell Birdcall Identification:
Владислав подробно объяснил, как аудио-сигнал преобразуется в мел-спектрограмму, с которой можно работать так же, как с изображениями, используя алгоритмы CV. Также он поделился особенностями аугментаций для аудио.

📊 По табличным данным:
Это всё ещё самые популярные соревнования на Kaggle, и по ним огромное количество материалов. Но если вам хочется отдельной лекции или вы хотите узнать больше, напишите в комментариях — учтём ваши пожелания!
18🔥10👍2
Привет, друзья!

После небольшого перерыва мы снова с вами и готовы к новым активностям!

С этого момента каждый день мы будем публиковать краткие обзоры актуальных соревнований. А те из них, что вызовут наибольший интерес, разберём подробнее — поделимся идеями, подходами и возможными решениями.

Также рады анонсировать тестовый запуск нашего бота для поиска сокомандников — @MLTeamSearchBot! С его помощью вы сможете просматривать активные соревнования, находить единомышленников и заводить новых друзей. Бот сейчас в активной разработке, поэтому будем признательны за ваши отзывы и предложения!
🔥25🍾4🎉2
BirdCLEF+ 2025

Цель: Основная задача — разработать модели машинного обучения для автоматической идентификации звуков животных, включая птиц, амфибий, млекопитающих и насекомых. Соревнование направлено на поддержку биоразнообразия и совершенствование технологий мониторинга дикой природы. В фокусе — Средняя долина Магдалены в Колумбии, регион с невероятным биологическим разнообразием.

Животные, представленные в соревновании:

🐦 Птицы — туканы, попугаи, трогоны, тана́гры, козодои
🐸 Амфибии — древолазы, стеклянные лягушки, древесные жабы
🐒 Млекопитающие — коати, обезьяны, опоссумы, летучие мыши
🐞 Насекомые — сверчки, цикады, шершни, жуки

Данные:

Аудио (формат .ogg) — полевые записи, собранные автономными устройствами.
Метки присутствия видов, включая координаты, время и идентификаторы.
Таксономическая информация — названия на латыни и местных языках.
Метаданные — геопозиция, время суток, качество записи, устройство и др.

Метрика: Оценка моделей проводится по модифицированной macro-averaged ROC-AUC, которая рассчитывается только по тем классам (видам), в которых присутствуют положительные примеры. Это позволяет избежать искажения метрики из-за редких или отсутствующих в тесте классов.

Сроки:

📅 10 марта 2025 — старт соревнования
29 мая 2025 — дедлайн на вход в соревнование
🤝 29 мая 2025 — последний день для объединения в команды
📤 5 июня 2025 — дедлайн на отправку финальных решений

🔗 Ссылка на соревнование: BirdCLEF+ 2025

🐥Рекомендуем посмотреть разбор призового решения Владислава Cornell Birdcall Identification, а также призовые решения предыдущих BirdCLEF на Kaggle.
🤖И найти себе команду в боте @MLTeamSearchBot.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10🕊3🏆3🤔1
🧬 Stanford RNA 3D Folding

Цель:
Построить модели, способные предсказывать трёхмерную структуру РНК по её последовательности. Эта задача критически важна для фундаментальной науки и разработки новых методов лечения — от понимания функций некодирующих РНК до дизайна РНК-основанных терапий.

Данные:
Последовательности РНК (буквы A, U, G, C).
Точные 3D-координаты атомов (экспериментально определённые) для обучения.
Дополнительные метаданные (длина цепи, химические свойства и пр.).

Метрика:
💡 Используется TM-score (Template Modeling Score) — метрика, оценивающая структурное сходство между предсказанной и эталонной 3D-структурой.
Диапазон значений: от 0 до 1, чем выше тем лучше.
Оценка проводится по 5 предсказаниям на каждую РНК, в зачет идет лучшее из пяти, а итоговая метрика — это среднее по всем целевым РНК

🔬 Выровненные структуры сравниваются с эталоном независимо от последовательности (US-align используется для привязки по пространственным координатам).

Сроки:
🟢 27 февраля 2025 — старт соревнования
🥇 23 апреля 2025 — обновление паблик-таблицы, а также Early Sharing Prizes 🎁
22 мая 2025 — дедлайн для входа в соревнование и объединения в команды
📤 29 мая 2025 — последний день для сабмитов
🧪 24 сентября 2025 — официальный конец соревнования после пост-оценки новых RNA-последовательностей

Post-Competition:
После дедлайна модель участников будет дополнительно оцениваться на до 40 новых RNA-последовательностях, которые появятся уже после завершения основной фазы. Это уникальный формат соревнования с "живым" leaderboard.

🔗 Ссылка на соревнование: Stanford RNA 3D Folding
🏆Рекомендуем посмотреть призовые решения предыдущих соревнований на Kaggle связанных с RNA(РНК).
🤖И найти себе команду в боте @MLTeamSearchBot.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥132🏆2👾1
Заметил интересную активность, я бы сам поучаствовал, будь свободное время! Сколтех проводит бесплатную Летнюю школу машинного обучения SMILES-2025 в Китае (12 дней, июль), где ведущие эксперты из Сколтеха, AIRI и HIT будут делиться знаниями о генеративных методах ИИ: LLM, мультиагентные системы, безопасный и визуальный ИИ. Участие офлайн и онлайн, всё бесплатно (включая перелёт и проживание), заявки принимаются до 20 апреля. https://smiles.skoltech.ru/school2025_rus
🔥94👍1👨‍💻1
Drawing with LLMs

🏆 Суть соревнования
Участникам нужно по текстовому описанию сгенерировать SVG-код, максимально точно визуализирующий сцену. Главная цель — разработать практичные и переиспользуемые модели, оформленные как Kaggle Packages, с чётким и воспроизводимым предсказанием изображения в SVG-формате.

📦 Особенности
- Это Package Competition — новая система, где вы создаёте Python-пакет с классом Model и методом predict(prompt), возвращающим SVG-код.
- Все сабмиты — это ноутбуки Kaggle, собирающие и подающие ваш пакет на проверку.
- Используется новая инфраструктура kagglehub — модели должны быть воспроизводимыми, модульными и без внешнего доступа к интернету.

⚙️ Требования
- SVG должен соответствовать ограниченному набору тегов и атрибутов.
- Размер SVG — не более 10 000 байт.
- Без растровых данных и внешних ссылок.
- Ответ должен быть сгенерирован менее чем за 5 минут.
- Весь пайплайн генерации на тестовом сете — до 9 часов.

📊 Оценка
Оценка проходит в несколько этапов:
1) SVG-проверка (размер, структура, ограничения).
2) Конвертация в PNG.
3) VQA-анализ (с помощью модели PaliGemma): задаются 4 вопроса по изображению, проверяется соответствие описанию.
4) OCR-проверка: если на изображении более 4 символов текста — начисляется штраф.
5) Aesthetic Score — эстетическая оценка с помощью CLIP-модели.

📌 Финальный балл — гармоническое среднее между VQA-оценкой и эстетикой (с приоритетом на VQA).

🗓 Таймлайн
🟢 Старт: 25 февраля 2025
🟡 Дедлайн входа и командных слияний: 19 мая 2025
🔴 Финальный дедлайн: 27 мая 2025

💰 Призы
🥇 1-е место — $12,000
🥈 2-5 места — от $10,000 до $8,000

🏆Рекомендуем посмотреть видео по NLP
🤖И найти себе команду в боте @MLTeamSearchBot.
🔥92😱1
📸 Image Matching Challenge 2025

Цель:
Разработать алгоритмы, которые:

Группируют изображения, относящиеся к одной сцене (или исключают «лишние» — outliers).
Восстанавливают позу камеры (матрица поворота + вектор смещения) для каждой сцены — задача из области Structure-from-Motion (SfM).

💡 Представьте, что вы открыли коробку с пазлом… а в ней перемешаны детали от разных наборов. Задача: сначала разделить изображения по "сценам", а затем точно «собрать» каждую из них в 3D.

Что в данных:

Много наборов изображений, каждая сцена содержит несколько ракурсов.
Некоторые изображения — outliers (не относятся ни к какой сцене).
Для train-набора доступны матрицы поворота (R) и векторы смещения (T) для всех "правильных" изображений.

В test — только изображения, вам нужно предсказать кластер (сцену) и позу камеры.

📊 Метрика, комбинирующая:

mAA (mean Average Accuracy): аналог recall — сколько правильных изображений попало в кластер.
Clustering Score: аналог precision — сколько из кластера действительно относится к сцене.
Финальный результат — гармоническое среднее mAA и Clustering Score, усреднённое по всем наборам.

Сроки:

🚀 Старт: 1 апреля 2025
🤝 Регистрация и команды: до 26 мая
📤 Финальные сабмиты: до 2 июня
🧠 Workshop на CVPR 2025: 11 июня 2025 (Нэшвилл, США или онлайн)

💰 Призовой фонд — $50,000 и шанс выступить на CVPR!
🥇 1 место: $12,000
🥈 2 место: $10,000
🥉 3–5 места: $10K / $10K / $8K

🔗 Ссылка на соревнование: Image Matching Challenge 2025

🏆Рекомендуем посмотреть интервью с победителем прошлого Image Matching Challenge 2024, где Владислав Останькович рассказал как ему удалось занять 1 место 🥇
А так же видео про Computer Vision.
🤖И найти себе команду в боте @MLTeamSearchBot.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥102🏆2
📣 BYU - Locating Bacterial Flagellar Motors 2025 (Kaggle)
🦠 Что ищем?
Флагеллярные моторы — это крошечные молекулярные "двигатели" на поверхности бактерий, которые вращают жгутики и обеспечивают их движение. Один из самых эффективных природных механизмов на наноуровне!

В этом соревновании вы будете определять наличие и точные координаты таких моторов в 3D-томограммах бактерий, полученных методом криоэлектронной томографии (cryo-ET).

📦 Данные:
3D-томограммы как наборы 2D JPEG-срезов
Координаты моторов в формате (z, y, x)
В тесте: томограммы с 0 или 1 мотором

📊 Метрика:
F₂-score — акцент на Recall
Предсказание засчитывается, если находится в пределах 1000 Å от реального мотора

📅 Сроки:
📆 5 марта 2025 — старт
🛑 28 мая 2025 — дедлайн входа и объединения в команды
📤 4 июня 2025 — дедлайн по сабмитам

💰 Призовой фонд — $65,000:
🥇 1 место: $20,000
🥈 2 место: $15,000
🥉 3 место: $12,000
4 место: $10,000
5 место: $8,000

🔗 Ссылка на соревнование: BYU - Locating Bacterial Flagellar Motors 2025
Рекомендуем посмотреть видео про Computer Vision.
🤖И найти себе команду в боте @MLTeamSearchBot.
8🔥3👍1🤯1
🌍 Yale/UNC-CH - Geophysical Waveform Inversion
Цель:
Создать модель, способную по сейсмическим волновым данным восстанавливать структуру подземных слоёв — задачу, известную как Full Waveform Inversion (FWI). Это важно для геофизики, медицины и диагностики материалов.

🔬 Почему это сложно?

Традиционные физические методы точны, но очень медленные и нестабильны при слабом/шумном сигнале.

Чистые ML-модели работают быстрее, но требуют огромных объёмов размеченных данных и плохо обобщаются на новые условия.
🏁 Ваша задача — объединить лучшее из двух миров: физику + ML.

📦 Данные:
Данные основаны на OpenFWI — большом открытом бенчмарке для сейсмической инверсии.

В соревновании участвуют три семейства подземных моделей:
Vel — плавные изменения скорости
Fault — с разломами и смещениями
Style — сгенерированные с разными геологическими стилями

Каждая пара включает:
Волновой отклик (waveform) — вход модели
Карту скоростей (velocity map) — целевая переменная

Один файл содержит 500 примеров. Вся обучающая выборка разбита на файлы по 500 штук.
💡 Можно использовать полную версию OpenFWI (вне Kaggle) для дообучения моделей.

📊 Метрика:
Средняя абсолютная ошибка (MAE) между предсказанным и истинным скоростным профилем.

📅 Сроки:
🚀 Старт: 8 апреля 2025
Команды до: 23 июня
📤 Сабмиты до: 30 июня

💰 Призовой фонд — $50,000:
🥇 $12,000
🥈 $10,000
🥉 $10,000
4-е место: $10,000
5-е место: $8,000
🔗 Ссылка на соревнование: Yale/UNC-CH - Geophysical Waveform Inversion
Рекомендуем посмотреть видео про Computer Vision.
🤖И найти себе команду в боте @MLTeamSearchBot.
🔥84🎉2
👾 ARC Prize 2025
Цель:
Разработать ИИ, способный осваивать новые навыки и решать открытые задачи, а не только выполнять типовые сценарии обучения на больших датасетах.
Проект направлен на продвижение к настоящему искусственному общему интеллекту (AGI).

📦 Данные:
Обновлённый датасет ARC-AGI-2 с задачами, проверяющими абстрактное мышление и обобщение.
Задачи калиброваны людьми и требуют от модели обучаться на лету.
Каждая задача — это пара "ввод-вывод" на небольших решётках (гриды), где требуется понять скрытую закономерность.

📊 Метрика:
Процент правильно решённых задач:
На каждую задачу даётся 2 попытки.
Если хотя бы одна попытка правильная → +1 балл за тестовый случай.
Итоговый скор = среднее по всем задачам.

📅 Сроки:
🚀 Старт: 24 марта 2025
Регистрация и команды: до 27 октября 2025
📤 Финальные сабмиты: до 3 ноября 2025
📝 Подача научных работ: до 9 ноября 2025

💰 Призы — до $725,000:
📈 $125,000 за прогресс (топ-5 команд)
🏆 $600,000 Гран-при, если набрать ≥85% правильных решений
✍️ $75,000 за лучшие научные статьи

🔗 Ссылка на соревнование: ARC Prize 2025
Рекомендуем посмотреть решения с прошлого соревнования ARC Prize 2024
🤖И найти себе команду в боте @MLTeamSearchBot.
😱9🔥4👾2
Forwarded from AI для Всех (Artemii)
🚀 OpenAI to Z Challenge — охота за затерянными городами Амазонии 🌳🛰️

Искали повод совместить ИИ и приключения? Вот он:

В чём суть
OpenAI предлагает нам, цифровым археологам, найти новые древние поселения под пологом тропического леса. Используем свежайшие модели o3 / o4-mini / GPT-4.1, спутниковые снимки, LiDAR-тайлы, колониальные дневники и устные карты коренных народов. Цель — предъявить координаты, доказать существование «потерянных городов» и приоткрыть историю миллионов людей.

Как участвовать
1. Соберите команду (или идите соло).
2. Роемся в открытых данных, прогоняем их через OpenAI-модели, скрещиваем методы (нужно минимум два независимых способа подтвердить локацию).
3. Упаковываем результаты:
• git-репо с кодом;
• короткий pdf/markdown c картами, скриншотами и выводами;
200-словный abstract.
4. Заливаем форму на Kaggle до 30 июня 2025, 07:00 МСК (это 29 июня, 21:00 PST).

Почему это круто
🏆 1-е место — $250 000 (+ кредиты API) и финансирование полевой экспедиции с бразильскими археологами.
🥈 2-е место — $100 000.
🥉 3-е место — $50 000.
Плюс стрим финалистов с тайным гостем-лидером ИИ-индустрии.

Что оценивают
• Археологический вклад — насколько весомо открытие.
• Инженерная изобретательность — глубина и креатив обработки данных.
• Воспроизводимость — чтобы любой мог повторить путь к артефактам.

Стартовый пак 📦
OpenAI уже собрал полезные ссылки, фичи моделей и советы по спутниковым данным — хватайте, чтобы не тратить время на грабли.

🗺️ Готовы стать цифровыми Конкистадорами (но без грабежей)?
Жмите на форму, зовите друзей-и идите проверять легенды об Элдорадо. Возможно, именно вы поставите новую точку на карте человечества.

🔗 Ссылка на челлендж и форму регистрации
🔥11👍6👀2
Kaggle Hackathons

Каггле решил попробовать двинуться в новом направлении и выкатил новую фичу - Kaggle Hackathons. По факту это развитие идеи Analytics Competition.

Огранизатор хакатона может поставить любую задачу - сделать приложение, что-то сделать с помощью LLM, записать видео и так далее. Сабмиты делаются в виде Hackathon Writeup - пост на форуме со ссылкой на свой проект и подробным объяснением сделанного.

Медальки и очки за такое не дают, так что участие происходит только за призы от организаторов.

#datascience
9🔥5😱2
🎯 Meta Kaggle Hackathon — анализируй Kaggle с помощью Kaggle! 🔍

Kaggle запустил первый официальный хакатон, и он действительно мета! 🤖
Задача — использовать Meta Kaggle — датасеты о самой платформе Kaggle — чтобы исследовать, как сообщество влияет на развитие AI и машинного обучения 💡

🗓 Сроки:

Начало: 29 мая 2025

Дедлайн: 21 июля 2025

Результаты: 11 августа 2025

🏆 Призовой фонд: $50,000

Два трека:
🔹 Main Track — любые инсайты и визуализации
🔹 Trends Over Time — эволюция стратегий, моделей, инструментов

📌 Что нужно сделать:

Исследование + оформленный Writeup в виде статьи/блога

Репрезентативный Notebook с воспроизводимым кодом

Видеообзор или интерактивная демонстрация

💡 Идеи тем:

Как менялось участие новичков vs грандмастеров?

Какие модели и техники побеждали чаще всего?

Как изменились темы соревнований за 15 лет?

📊 В твоих руках — вся история Kaggle в виде таблиц. Построй аналитику, визуализируй тренды и предложи новые метрики прогресса в ML-сообществе.

🔗 Присоединяйся: https://www.kaggle.com/competitions/meta-kaggle-hackathon/overview
🔥7🗿3😱2🙉1
Forwarded from Samvel K
Заглянул на Kaggle с другой стороны, как организатор. Любоптыный опыт. Заходите порешать на досуге…

FlightRank 2025: Aeroclub RecSys Cup - RecSys соревнование на Kaggle про ✈️

Лидерборд еще sparse, только на днях соревнование появилось на Kaggle в Spotlights. 2 месяца впереди (до 17 августа), Community competition (без медалек), призовые $10,000.

Данных много для Kaggle-ноутбуков (в память только с бубном Polars, DuckDB) и слегка скромно для рекомендательных моделек (25 млн. Items на 30 тыс. Users). 

Удачи всем, кто заглянет порешать 🤞🍀🚀
🔥10👍4🙏2
​​Kaggle Progression Update

Большие изменения на Kaggle! Сегодня на форумах появился пост с внушительным списком изменений платформы.

• Вначале главное - рейтинга обсуждений больше нет! Вместо него всем дали ачивки Discussions Legacy Expert/Master/Grandmaster, больше их не заработать. Причина - слишком многие фармили этот рейтинг. И 4х Грандмастером не стать... хотя нет - им стать можно, но по-другому.
• Завезли специальную страницу про грандмастеров: https://www.kaggle.com/rankings/grandmasters Можно посмотреть и увидеть, что Giba - 13х Grandmaster. Э, что? Теперь N Grandmaster считается по-другому - можно стать Грандмастером в каждой категории (3x), а затем за каждые 5 (!) золотых медалей в соревнованиях добавляется ещё 1x. У него 64 золотых медалей в соревнованиях - это 5х12, и ещё он грандмастер кода. Имхо, это выглядит как-то странно. Возможно это новая мотивация людям гоняться за золотом в соревнованиях, чтобы было больше крутых решений. Но это ещё сильнее ужесточит конкуренцию за топ места.
• Novice и Contributor уровни убрали, теперь минимальный уровень - Expert
• То, чего мы ждали годами - форкание ноутбуков автоматически даёт лайки автору. Заодно изменили как получаются рейтинги/медали за датасеты и код - учитываются только лайки от Experts и выше, decay очков идёт не от даты лайка, а от даты создания датасета/кода, улучшили anti-abuse.
• Из-за пункта выше у всех были автоматически пересчитаны очки этих двух рейтингов во всех моментах времени.
• Рейтинг теперь можно фильтровать по городу и компании
• Есть красивая страничка в профиле с графиком твоего рейтинга во времени
• Есть отдельная страничка Awards: https://www.kaggle.com/rankings/awards

В тредике бурление, думаю, что эти мощные изменения люди ещё долго будут обсуждать.

#datascience
😱10👍82😭1