У лягушек кстати есть прямой союз с тарантулами - они охраняют его кладку, а он предупреждает их об опасности. Мир ждёт ML-паука..
🤡17❤🔥12🤯5👍1
— Почему тебе поставили 2 по эволюции?
— Преподаватель стал жертвой навязываемой шаблонности мышления
— Ты рассказал про битву ящеров и русов?
— Да
— Преподаватель стал жертвой навязываемой шаблонности мышления
— Ты рассказал про битву ящеров и русов?
— Да
👍54😁6🤯1🙏1🤡1
Задача:
Найдите количество прообразов единичной матрицы размера n на n для отображения A->A^2.
Найдите количество прообразов единичной матрицы размера n на n для отображения A->A^2.
🤡25🤯1🤣1
Из-за трудностей с HR и отпусков у всех и вся там до конца недели минимум не выхожу на работу в Syntelly🚬🚬
🤬14💩3🤮2🤯1
#мыслирисерчера
Возвращаясь к идее связи всего и вся с зеркальным спуском.
Давайте рассмотрим функцию кросс-энтропии, часто используемую для минимизации. Зачастую, на разных курсах по ML объясняется интуиция, стоящая за ней, но она не совсем математичная, как мне кажется. Следующие рассуждения являются очевидными, но приятно их проделать.
Сначала заметим, что lim x * ln(cx) = lim x * ln(c/x) = 0 при x -> 0
Посмотрим на одно слагаемое в сумме кросс.энтропии, оно имеет вид p_i * log(p'_i). Как мы знаем, вектор p имеет конкретную структуру - на всех позициях кроме одной стоят нули и на одной единичка. Пусть p_i = 0, тогда, из замечания, следует что p_i * log(p'_i) = 0 = -p_i * log(p_i / p'_i). Пусть p_i = 1, но тогда же p_i * log(p'_i) = - p_i * log(p_i / p'_i), так как -1 уйдет под логарифм, и домножение на 1 ничего не меняет. Тогда кросс-энтропия переписывается в точности как KL-дивергенция между p и p'. Ну и что, спросите вы?
А то, что KL-дивергенция это буквально дивергенция Брэгмана для n-мерного симплекса при использовании в качестве прокс.функции энтропии. И, как вы возможно знаете, дивергенция Брэгмана используется в зеркальном спуске на симплексе, шагом которого может быть представлен Softmax!
Просто есть одна идея, как зашить функцию ошибки внутрь софтмакса для более стабильной оптимизации и, возможно, улучшения математического понимания нейронных сетей. Но я еще над этим работаю
Возвращаясь к идее связи всего и вся с зеркальным спуском.
Давайте рассмотрим функцию кросс-энтропии, часто используемую для минимизации. Зачастую, на разных курсах по ML объясняется интуиция, стоящая за ней, но она не совсем математичная, как мне кажется. Следующие рассуждения являются очевидными, но приятно их проделать.
Сначала заметим, что lim x * ln(cx) = lim x * ln(c/x) = 0 при x -> 0
Посмотрим на одно слагаемое в сумме кросс.энтропии, оно имеет вид p_i * log(p'_i). Как мы знаем, вектор p имеет конкретную структуру - на всех позициях кроме одной стоят нули и на одной единичка. Пусть p_i = 0, тогда, из замечания, следует что p_i * log(p'_i) = 0 = -p_i * log(p_i / p'_i). Пусть p_i = 1, но тогда же p_i * log(p'_i) = - p_i * log(p_i / p'_i), так как -1 уйдет под логарифм, и домножение на 1 ничего не меняет. Тогда кросс-энтропия переписывается в точности как KL-дивергенция между p и p'. Ну и что, спросите вы?
А то, что KL-дивергенция это буквально дивергенция Брэгмана для n-мерного симплекса при использовании в качестве прокс.функции энтропии. И, как вы возможно знаете, дивергенция Брэгмана используется в зеркальном спуске на симплексе, шагом которого может быть представлен Softmax!
Просто есть одна идея, как зашить функцию ошибки внутрь софтмакса для более стабильной оптимизации и, возможно, улучшения математического понимания нейронных сетей. Но я еще над этим работаю
🤡14🔥9❤4👎4👍2
Почему когда мы говорим об обучении нейронных сетей то сразу же говорим о задаче стох.оптимизации, то есть min E(L(x, w)), а не об аппроксимации функции Y(x), которая выдает лейблы?
🤡12🤔6❤1😁1
