ML-легушька – Telegram
ML-легушька
3.46K subscribers
1.39K photos
162 videos
6 files
91 links
Гений, стартапер, плейбой, филантроп
Для связи: @MLfroge
Download Telegram
Просматривая старые фото...
Тут ещё начало первого курса. Физтех меняет людей
💯24😍5❤‍🔥3😢2🤡1
Ждём прямого включения из Пущино
💯34🤩5❤‍🔥4🤮2👍1
У лягушек кстати есть прямой союз с тарантулами - они охраняют его кладку, а он предупреждает их об опасности. Мир ждёт ML-паука..
🤡17❤‍🔥12🤯5👍1
Среда мои чуваки
25❤‍🔥4
— Почему тебе поставили 2 по эволюции?
— Преподаватель стал жертвой навязываемой шаблонности мышления
— Ты рассказал про битву ящеров и русов?
— Да
👍54😁6🤯1🙏1🤡1
🔥21❤‍🔥3👍2🌭1
Задача:
Найдите количество прообразов единичной матрицы размера n на n для отображения A->A^2.
🤡25🤯1🤣1
Channel photo updated
Из-за трудностей с HR и отпусков у всех и вся там до конца недели минимум не выхожу на работу в Syntelly🚬🚬
🤬14💩3🤮2🤯1
20😁3❤‍🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
12❤‍🔥2👎1
#мыслирисерчера
Возвращаясь к идее связи всего и вся с зеркальным спуском.
Давайте рассмотрим функцию кросс-энтропии, часто используемую для минимизации. Зачастую, на разных курсах по ML объясняется интуиция, стоящая за ней, но она не совсем математичная, как мне кажется. Следующие рассуждения являются очевидными, но приятно их проделать.
Сначала заметим, что lim x * ln(cx) = lim x * ln(c/x) = 0 при x -> 0
Посмотрим на одно слагаемое в сумме кросс.энтропии, оно имеет вид p_i * log(p'_i). Как мы знаем, вектор p имеет конкретную структуру - на всех позициях кроме одной стоят нули и на одной единичка. Пусть p_i = 0, тогда, из замечания, следует что p_i * log(p'_i) = 0 = -p_i * log(p_i / p'_i). Пусть p_i = 1, но тогда же p_i * log(p'_i) = - p_i * log(p_i / p'_i), так как -1 уйдет под логарифм, и домножение на 1 ничего не меняет. Тогда кросс-энтропия переписывается в точности как KL-дивергенция между p и p'. Ну и что, спросите вы?
А то, что KL-дивергенция это буквально дивергенция Брэгмана для n-мерного симплекса при использовании в качестве прокс.функции энтропии. И, как вы возможно знаете, дивергенция Брэгмана используется в зеркальном спуске на симплексе, шагом которого может быть представлен Softmax!
Просто есть одна идея, как зашить функцию ошибки внутрь софтмакса для более стабильной оптимизации и, возможно, улучшения математического понимания нейронных сетей. Но я еще над этим работаю
🤡14🔥94👎4👍2
Почему когда мы говорим об обучении нейронных сетей то сразу же говорим о задаче стох.оптимизации, то есть min E(L(x, w)), а не об аппроксимации функции Y(x), которая выдает лейблы?
🤡12🤔61😁1