ML Boost Camp – Telegram
ML Boost Camp
1.21K subscribers
6 photos
39 links
Канал о Kaggle bootcamp!
Будут лекции, живое общение и совместное участие в соревнованиях.
Старт в начале июля!
Download Telegram
Всем привет!

Мы посмотрели ваши EDA и готовы огласить результаты:
1 место @DP_brain 🥇
2 место @iasivkov 🥈
3 место Andrey Masyutin 🥉

Все молодцы! Мы уже заказали для всех вас фирменные футболки и свяжемся с вами в ближайшее время для уточнения размера и адреса на который можем их отправить.
🎉33🔥6🏆3👍1
Мы принципиально не берем рекламу себе в канал, но готовы бесплатно рассказывать о релевантных инициативах.

И тут написали ребята из XLabs AI, которые много сделали для text2img модели flux, и попросили рассказать о хакатоне.

Задача — разработать нейросеть, которая сможет петь на русском языке по заданным текстовым инструкциям, с возможностью адаптации к другим языкам в будущем. Сокомандников можно найти в чате.

Призовые — 2 млн рублей, за первое место — 1 млн рублей.

Заявки принимаются до 1 ноября 23:59, сам хакатон пройдет 2-17 ноября.

Напишите, стоит ли писать анонсы соревнований тут, или вы против.

P.S. лекция по NLP ожидается 21 октября в 19-00 по мск
🔥29😁4
#contest

Дайджест ближайших соревнований (отсортированы по дате проведения):

[СОР] AvitoTech ML cup 2024
Даты: 5.11 - 5.12
🔜 [CLF] Задача: предсказать вероятность, что пользователь кликнет рекламу
💰 Приз: 600 т.р. (+10 мерч)
🏀 Участие: соло или команда до 4 человек
🌐 Формат: онлайн

[ХАК] Tender Hack
Даты: 8.11 - 10.11 (рег. до 8.11)
🔜 Задача: разработать сервис, осуществляющий мониторинг котировочных сессий на предмет корректности публикации
💰 Приз: 500 т.р.
🏀 Участие: команда 3-5 человек
🌐 Формат: офлайн в СПБ

[ХАК] BIV Hack
Даты: 15.11 - 17.11 (рег. до 12.11)
🔜 [CLF, NLP] Задача 1: Автоматизация разбора платежей
🔜 [NLP] Задача 2: Алгоритм выявления связей между контрагентами
💰 Приз: 300 т.р.
🏀 Участие: команда 3-5 человек
🌐 Формат: онлайн

[ХАК] AgroCode Hack Genetics
Даты: 22.11 - 24.11 (рег. до 14.11)
🔜 [CLF] Задача 1: Система оценки племенной ценности радужной форели
🔜 [NLP] Задача 2: «Тиндер» для коров
🔜 [REG] Задача 3: Прогнозирование урожайности
🔜 [CLT] Задача 4: Историческая агроголоволомка
💰 Приз: 200 т.р. на задачу
🏀 Участие: команда 3-5 человек
🌐 Формат: онлайн

[ХАК] T1 | Импульс | Хакатон | Москва
Даты: 26.11 - 29.11 (рег. до 25.11)
🔜 [NLP] Трек 1: объединение данных пользователя в золотую запись
🔜 [NLP, RAG] Трек 2: цифровой ассистент базы знаний
💰 Приз: 600 т.р. на каждый трек
🏀 Участие: команда 3-5 человек
🌐 Формат: гибрид (Москва, минимум 2 участника на площадке)

[ХАК] ХАКАТОН ЕВРАЗА 3.0
Даты: 29.11 - 01.12 (рег. до 25.11)
🔜 [NLP] Задача: автоматический Code Review с помощью ИИ
💰 Приз: 500 т.р.
🏀 Участие: команда 2-5 человек
🌐 Формат: онлайн

[ХАК] ЦП. Международный хакатон
Даты: 08.12 - 10.12 (рег. до 04.11)
🔜 [CV, REC] Кейс 1: поиск смысловых копий изображений
🔜 [CV, NLP] Кейс 2: матчинг видеовизитки и описания вакансии
🔜 [CV, CLF] Кейс 3: поиск животных на фото и их классификация
🔜 [CV] Кейс 4: детекция и распознавание маркировки на изображении
🔜 [NLP] Кейс 5: качественный анализ документации на соответствие требованиям
🔜 [CLF] Кейс 6: детекция аномалий при строительстве жилых комплексов в части транспортной доступности
🔜[CV] Кейс 7: поиск нарушений автотранспортом на видеозаписи
🔜 [CLF] Кейс 8: распознавания фазы глубокого сна и промежуточной фазы сна
🔜 [NLP, RAG] Кейс 9: чат-бот для поиска информации в агентской библиотеке материалов
💰 Приз: 10 млн рублей
🏀 Участие: команда 3-5 человек
🌐 Формат: гибрид

З.Ы. Здесь приведены только ML-задачи. Сами задачи могут включать и расширенные требования. Например, Fronend.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍52🆒1
Привет, ребята
Давайте, наконец, проведем лекцию с теорией по NLP
Приходите завтра, 4 ноября в 20-00 по мск
Трансляция будет в телеге. Запись будет
🤝24🔥212👍2🐳1
Через минуту начинаем лекцию по NLP.
Вопросы можно задавать тут
Live stream scheduled for
Live stream started
Live stream finished (1 hour)
Пока мы готовим новую лекцию, у вас есть уникальная возможность посмотреть разборы соревнований, в которых я(Слава) участвовал. В каждом видео есть кусочек теории, секреты и приемы

1) Егэ по русскому это было мое первое соревнование с которого начался мой путь в светлое будущее. Можете умилиться, как неправильно я произношу Bert. От начала изучения питона и мл до этого соревнования прошло 3 месяца. В рамках него я изучал nlp

2) Прогнозирование короны второе соревнования. Тут я впервые столкнулся с деревьями, бустингами, табличками и понял, что это не мое. Так же погрузился в изучение визуализации и EDA

3) Потом я перешел на kaggle и первое соревнование было по звуку. Тут емко содержится теория по аудио и приемы, которые я использовал. Золото этого соревнования дало мне понять. что бояться ничего не надо(кроме ос)

4) Ну и замыкаем еще двумя соревнованиями, и снова по NLP. Первое - оценка сложности текста. Второе - извлечение сущностей. Каждое дополняет другое и глубже погружает в NLP

Приятного просмотра!
🔥176👍6
Публикуем фотографии наших победителей!

Ещё раз большое спасибо им за интересные EDA 🔑
И, возможно, вы уже догадались, о чём будет наша следующая лекция!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥173
Рады поделиться с вами новой лекцией про Computer Vision!

Обсудили основные типы задач, особенности архитектур, а так же популярные трюки которые помогут улучшить ваши результаты.

Скоро выложим интересное интервью, где обсудили популярные библиотеки для задач компьютерного зрения и не только, следите за анонсами.
🔥274
Всем привет! Надеюсь все отошли от новогодних праздников и готовы смотреть новое видео!
В этом интервью Павел Якубовский, инженер Hugging Face и создатель популярной библиотеки Segmentation Models, делится своим опытом разработки open-source проектов, рассказывает о развитии своей карьеры и даёт рекомендации по работе с компьютерным зрением.
🔥246👍4🎉2
Всем привет!
Для тех, кто пропустил или недавно присоединился, публикуем список лекций нашего Boostcamp:

1 О Kaggle, план Bootcamp, Roadmap
2 EDA, основные шаги, лики и разбор на примере соревнования
3 Версионирование экспериментов
4 Изучаем NLP. От основ до GPT
5 Computer Vision. Задачи, Архитектуры, Трюки
6 Павел Якубовский: Segmentation Models, Hugging Face и тренды в CV.

Кажется, мы не затронули только аудио и табличные данные. Но у нас есть что порекомендовать!

🎧 По аудио:
Посмотрите запись от ODS, где Владислав рассказал про призовое решение в соревновании Cornell Birdcall Identification:
Владислав подробно объяснил, как аудио-сигнал преобразуется в мел-спектрограмму, с которой можно работать так же, как с изображениями, используя алгоритмы CV. Также он поделился особенностями аугментаций для аудио.

📊 По табличным данным:
Это всё ещё самые популярные соревнования на Kaggle, и по ним огромное количество материалов. Но если вам хочется отдельной лекции или вы хотите узнать больше, напишите в комментариях — учтём ваши пожелания!
18🔥10👍2
Привет, друзья!

После небольшого перерыва мы снова с вами и готовы к новым активностям!

С этого момента каждый день мы будем публиковать краткие обзоры актуальных соревнований. А те из них, что вызовут наибольший интерес, разберём подробнее — поделимся идеями, подходами и возможными решениями.

Также рады анонсировать тестовый запуск нашего бота для поиска сокомандников — @MLTeamSearchBot! С его помощью вы сможете просматривать активные соревнования, находить единомышленников и заводить новых друзей. Бот сейчас в активной разработке, поэтому будем признательны за ваши отзывы и предложения!
🔥25🍾4🎉2
BirdCLEF+ 2025

Цель: Основная задача — разработать модели машинного обучения для автоматической идентификации звуков животных, включая птиц, амфибий, млекопитающих и насекомых. Соревнование направлено на поддержку биоразнообразия и совершенствование технологий мониторинга дикой природы. В фокусе — Средняя долина Магдалены в Колумбии, регион с невероятным биологическим разнообразием.

Животные, представленные в соревновании:

🐦 Птицы — туканы, попугаи, трогоны, тана́гры, козодои
🐸 Амфибии — древолазы, стеклянные лягушки, древесные жабы
🐒 Млекопитающие — коати, обезьяны, опоссумы, летучие мыши
🐞 Насекомые — сверчки, цикады, шершни, жуки

Данные:

Аудио (формат .ogg) — полевые записи, собранные автономными устройствами.
Метки присутствия видов, включая координаты, время и идентификаторы.
Таксономическая информация — названия на латыни и местных языках.
Метаданные — геопозиция, время суток, качество записи, устройство и др.

Метрика: Оценка моделей проводится по модифицированной macro-averaged ROC-AUC, которая рассчитывается только по тем классам (видам), в которых присутствуют положительные примеры. Это позволяет избежать искажения метрики из-за редких или отсутствующих в тесте классов.

Сроки:

📅 10 марта 2025 — старт соревнования
29 мая 2025 — дедлайн на вход в соревнование
🤝 29 мая 2025 — последний день для объединения в команды
📤 5 июня 2025 — дедлайн на отправку финальных решений

🔗 Ссылка на соревнование: BirdCLEF+ 2025

🐥Рекомендуем посмотреть разбор призового решения Владислава Cornell Birdcall Identification, а также призовые решения предыдущих BirdCLEF на Kaggle.
🤖И найти себе команду в боте @MLTeamSearchBot.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10🕊3🏆3🤔1
🧬 Stanford RNA 3D Folding

Цель:
Построить модели, способные предсказывать трёхмерную структуру РНК по её последовательности. Эта задача критически важна для фундаментальной науки и разработки новых методов лечения — от понимания функций некодирующих РНК до дизайна РНК-основанных терапий.

Данные:
Последовательности РНК (буквы A, U, G, C).
Точные 3D-координаты атомов (экспериментально определённые) для обучения.
Дополнительные метаданные (длина цепи, химические свойства и пр.).

Метрика:
💡 Используется TM-score (Template Modeling Score) — метрика, оценивающая структурное сходство между предсказанной и эталонной 3D-структурой.
Диапазон значений: от 0 до 1, чем выше тем лучше.
Оценка проводится по 5 предсказаниям на каждую РНК, в зачет идет лучшее из пяти, а итоговая метрика — это среднее по всем целевым РНК

🔬 Выровненные структуры сравниваются с эталоном независимо от последовательности (US-align используется для привязки по пространственным координатам).

Сроки:
🟢 27 февраля 2025 — старт соревнования
🥇 23 апреля 2025 — обновление паблик-таблицы, а также Early Sharing Prizes 🎁
22 мая 2025 — дедлайн для входа в соревнование и объединения в команды
📤 29 мая 2025 — последний день для сабмитов
🧪 24 сентября 2025 — официальный конец соревнования после пост-оценки новых RNA-последовательностей

Post-Competition:
После дедлайна модель участников будет дополнительно оцениваться на до 40 новых RNA-последовательностях, которые появятся уже после завершения основной фазы. Это уникальный формат соревнования с "живым" leaderboard.

🔗 Ссылка на соревнование: Stanford RNA 3D Folding
🏆Рекомендуем посмотреть призовые решения предыдущих соревнований на Kaggle связанных с RNA(РНК).
🤖И найти себе команду в боте @MLTeamSearchBot.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥132🏆2👾1
Заметил интересную активность, я бы сам поучаствовал, будь свободное время! Сколтех проводит бесплатную Летнюю школу машинного обучения SMILES-2025 в Китае (12 дней, июль), где ведущие эксперты из Сколтеха, AIRI и HIT будут делиться знаниями о генеративных методах ИИ: LLM, мультиагентные системы, безопасный и визуальный ИИ. Участие офлайн и онлайн, всё бесплатно (включая перелёт и проживание), заявки принимаются до 20 апреля. https://smiles.skoltech.ru/school2025_rus
🔥94👍1👨‍💻1
Drawing with LLMs

🏆 Суть соревнования
Участникам нужно по текстовому описанию сгенерировать SVG-код, максимально точно визуализирующий сцену. Главная цель — разработать практичные и переиспользуемые модели, оформленные как Kaggle Packages, с чётким и воспроизводимым предсказанием изображения в SVG-формате.

📦 Особенности
- Это Package Competition — новая система, где вы создаёте Python-пакет с классом Model и методом predict(prompt), возвращающим SVG-код.
- Все сабмиты — это ноутбуки Kaggle, собирающие и подающие ваш пакет на проверку.
- Используется новая инфраструктура kagglehub — модели должны быть воспроизводимыми, модульными и без внешнего доступа к интернету.

⚙️ Требования
- SVG должен соответствовать ограниченному набору тегов и атрибутов.
- Размер SVG — не более 10 000 байт.
- Без растровых данных и внешних ссылок.
- Ответ должен быть сгенерирован менее чем за 5 минут.
- Весь пайплайн генерации на тестовом сете — до 9 часов.

📊 Оценка
Оценка проходит в несколько этапов:
1) SVG-проверка (размер, структура, ограничения).
2) Конвертация в PNG.
3) VQA-анализ (с помощью модели PaliGemma): задаются 4 вопроса по изображению, проверяется соответствие описанию.
4) OCR-проверка: если на изображении более 4 символов текста — начисляется штраф.
5) Aesthetic Score — эстетическая оценка с помощью CLIP-модели.

📌 Финальный балл — гармоническое среднее между VQA-оценкой и эстетикой (с приоритетом на VQA).

🗓 Таймлайн
🟢 Старт: 25 февраля 2025
🟡 Дедлайн входа и командных слияний: 19 мая 2025
🔴 Финальный дедлайн: 27 мая 2025

💰 Призы
🥇 1-е место — $12,000
🥈 2-5 места — от $10,000 до $8,000

🏆Рекомендуем посмотреть видео по NLP
🤖И найти себе команду в боте @MLTeamSearchBot.
🔥92😱1