NEW BOT Телеграм, страница

😨1

106 viewsAnatoly Alekseev, 19:56

#competitions #watersupply

Крис Мольнар упомянул крайне интересное соревнование Water Supply Forecast Rodeo. Кто хочет поучаствовать?! Йихаа, бэйби!! )

Решил влезть в эту сореву. Подкупает несколькими вещами:

1) общественно полезная работа. всегда мечтал сделать что-то полезное для общества в масштабе. это вам не сбербанковские конкурсы, которые только для пиара и где хорошие решения организаторам неинтересны

2) дают данные. notebooks-only соревы я не люблю: организаторы получаю от участников бесплатно идеи, а большинство участников получает хрен.
тут, кажется, можно сильно прокачаться в альтернативных данных. список источников курируется и довольно велик. странно, что пока спутниковые снимки не завезли, вроде пока только табличные данные.

3) это близко к моим научным и практическим интересам: временные ряды, но только в части фичей. таргеты скорее из классики ML Нужно предсказывать по каждому из 26 источников воды суммарный водяной поток за сезон в любую дату до завершения сезона. По сути, можно провести аналогию с 26 активами на бирже, только трейдеры/кванты хотят предсказывать за период не суммы, а экстремумы ряда. Причём наверняка между "сайтами" есть связи, как и между активами.

4) данных не то чтобы супермного по объёмам, гранулярность дневная, вполне может влезть на мой рабочий комп.

5) у меня уже есть модули создания фичей для временных рядов, обучения моделек с разными препроцессингами над одними и теми же фичами с логированием в облачный mlflow, простым ансамблированием

6) как раз, возможно, получится докрутить feature selection и hyperparameters tuning и заюзать здесь. а может, и на полноценный стэкинг хватит.

7) призовой фонд в полмиллиона баксов наверняка привлечёт мировых топов в соревновательном DS, и я смогу сравнить силу своих ML решений с лидерами отрасли. пока вижу 350+ команд.

Организаторы применили какой-то хитрый ход с удалением части данных, т.к. на них будет скориться 1я часть соревы. Мне это совершенно не нравится, т.к. не построить нормальные фичи. Попробую официально предложенные фичи игнорировать, а начать с альтернативных данных. Утечки данных отбивают всё желание тратить время.

Лично мне, кстати, противно смотреть рекомендации кэгглеров, посвящённые чисто эксплойтам дата ликов.

DrivenData

Water Supply Forecast Rodeo: Development Arena

START HERE! Water managers in the Western U.S. rely on accurate water supply forecasts to better operate facilities and mitigate drought. Help the Bureau of Reclamation improve seasonal water supply estimates in this probabilistic forecasting challenge!

104 viewsAnatoly Alekseev, edited 21:56