NEW BOT Телеграм, страница

#мыслирисерчера
Возвращаясь к идее связи всего и вся с зеркальным спуском.
Давайте рассмотрим функцию кросс-энтропии, часто используемую для минимизации. Зачастую, на разных курсах по ML объясняется интуиция, стоящая за ней, но она не совсем математичная, как мне кажется. Следующие рассуждения являются очевидными, но приятно их проделать.
Сначала заметим, что lim x * ln(cx) = lim x * ln(c/x) = 0 при x -> 0
Посмотрим на одно слагаемое в сумме кросс.энтропии, оно имеет вид p_i * log(p'_i). Как мы знаем, вектор p имеет конкретную структуру - на всех позициях кроме одной стоят нули и на одной единичка. Пусть p_i = 0, тогда, из замечания, следует что p_i * log(p'_i) = 0 = -p_i * log(p_i / p'_i). Пусть p_i = 1, но тогда же p_i * log(p'_i) = - p_i * log(p_i / p'_i), так как -1 уйдет под логарифм, и домножение на 1 ничего не меняет. Тогда кросс-энтропия переписывается в точности как KL-дивергенция между p и p'. Ну и что, спросите вы?
А то, что KL-дивергенция это буквально дивергенция Брэгмана для n-мерного симплекса при использовании в качестве прокс.функции энтропии. И, как вы возможно знаете, дивергенция Брэгмана используется в зеркальном спуске на симплексе, шагом которого может быть представлен Softmax!
Просто есть одна идея, как зашить функцию ошибки внутрь софтмакса для более стабильной оптимизации и, возможно, улучшения математического понимания нейронных сетей. Но я еще над этим работаю

🤡14🔥9❤4👎4👍2

1.4K viewsНиколай Кутузов, 17:07

ML-легушька

Почему когда мы говорим об обучении нейронных сетей то сразу же говорим о задаче стох.оптимизации, то есть min E(L(x, w)), а не об аппроксимации функции Y(x), которая выдает лейблы?

🤡12🤔6❤1😁1

1.39K viewsНиколай Кутузов, 21:05

About

Blog

Apps

Platform