NEW BOT Телеграм, страница

229 views22:18

L1 и L2 Регуляризации при выборе того на сколько нужно пожать вес опираются на значение этого веса, но задумывались ли вы о том, на сколько связаны вес и его влияние на результаты работы сети? Бытует интуитивное мнение, что если вес большой, то он важный, а если меленький, то не важный. На сколько это верно?

Можно напрямую посчитать истинную полезность любого веса для сети - отключить его одного и посмотреть на сколько изменится результат на всей тестовой выборке. Давайте возьмём для опытов второй полносвязанный слой классификатора классической сети AlexNet, которая обучалась без каких либо хитрых изысков регуляризации десять лет назад. Эталонно изученый во всех деталях слой. Для примера возьмём из него 4096 случайных весов, потому что чтобы прогнать тестовую выборку все 4096х4096 раз на моей домашней машине потребовалось бы пол года. Для иллюстрации нам вполне хватит.

Смотреть напрямую на accuracy, к сожалению, не информативно, обнуление никакого из весов не повлияло на классификацию более чем двух картинок из всего тестового датасета. Но мы можем посмотреть на то, как выключение веса повлияет на loss, вычисленный по всей тестовой выборке, кроссэнтропию, например. Тут вклад тоже получается копеечный, на столько что 33 из 4096 весов показали строго нулевое изменение loss - их вклад оказался меньше ошибки округления float32, но это уже вполне уверенно позволяет оценить важность каждого веса. Смотрим на первую иллюстрацию, распределение на столько нормальное, что можно сказать эталонное, вполне правдоподобные числа.

Ну и на сколько же соотносятся истинная полезность и вес? Смотрим вторую иллюстрацию. Во-первых, да, маленькие синапсы не могут быть слишком важными, но при этом большие и тяжёлые могут быть совершенно бесполезными. Как видно по третьей иллюстрации квадрат веса ничуть не лучше, и отношение полезности к весу тоже очень нормально распределено, оно может быть разным и чаще всего оно не очень хорошее.

Так что если вы видите меленький вес его вероятно можно занулить, но если вы видите относительно большой вес это ваще ничего не значит.
По его дисперсии, кстати, можно ценить степень нелинености решения, если вам для вашей интерпретации это зачем-то понадобилось.

Ну и ещё одна иллюстрация. Точно так же как мы считаем полезность для тестовой выборки мы можем посчитать её и для выборки учебной, и посмотреть как будут соотноситься полезности на трейне и тесте.
Не все 1.2M изображений конечно, я ж не миллионер, возьмём из учебной выборки случайную подвыборку такого же размера - по пятьдесят картинок каждого класса. Всего то ещё один день надо не выспаться, и картинка готова.
Если бы не корреляция в .24 можно было бы предположить, что никакой логики за этой картинкой не стоит. Но она есть.

👍5

255 views22:19