NEW BOT Телеграм, страница - 490157625

Свидетели Градиента

@GradientWitnesses

488 subscribers

128 photos

29 files

61 links

Этот канал предназначен для общения и обсуждений среди тех, кто как и я, хочет видеть что происходит под капотом у нейросетей, и старается развивать интуицию об их природе и свойствах.

Для связи: @kraidiky

Download Telegram

About

Blog

Apps

Platform

Свидетели Градиента

488 subscribers

Свидетели Градиента

Channel created

09:42

Свидетели Градиента

Ссылка не мой доклад на ODS-овский Data Fest 2023:
https://www.youtube.com/watch?v=Npm-awHtfeM
В нём я по-немножку затрагиваю множество тем, большинство из которых не поместились в отведённые пол часа:
- Визуализация траектории обучения,
- ошибки в pytorch
- Дисперсия граджиентов и диаграмма градиентов вообще.
- Влиянеи импульса (momentum) на ход обучения нейросети.
- Размеры batch как фактор сглаживания дисперсии градиентов в всети
- дополнительный momentum для bias-ов (в нём заключается половина пользы от ).
- И другие тонкости манипулирования импульсами.

Влад Голощапов - Моментум истины: Не всем известные свойства оптимизаторов с импульсом - SGD,Adam..

Моментум истины: Не всем известные свойства оптимизаторов с импульсом - SGD, Adam и т.д., напомнившие о себе ошибкой в torch.optim.SGD и визуализация внутреннего состояния обучения

Data Fest 2023:
https://ods.ai/events/datafestonline2023
Трек "Random DS/ML":…

178 views11:00

Свидетели Градиента

Комментарии забыл включить...

👍4

182 views05:29

Свидетели Градиента

8_Влад_Голощапов_Data_Fest_Siberia_2023_Затухание_градиентов.pptx

Плохо всё делать в последний момент и невыспавшимся. 😩. В презентации допущена важная ошибка, там где показано как получить медианы градиентов одной строкой я, собственно .grad забыл добавить. Правильная строчка выглядит вот так:
[(n,p.grad.view(-1)[p .grad.view(-1)!=0].abs().log10().median().item()) for n, p in model.named_parameters()]
Исправленная презентация прилагается.

👍6

207 views07:59

Свидетели Градиента

https://www.youtube.com/live/i55749ii9xk?si=ayBGJlmzl-xpIFJU&t=23355
Ссылка на второй доклад. Если вы здесь, значит его уже видели, но, возможно, тут в комментариях можно обсудить всякое, что было в докладе.

Data Fest Siberia 4, Академпарк, 7 октября

Трансляция четвертого оффлайн Феста в Сибири!

Полное расписание мероприятия доступны на ODS.AI:
https://ods.ai/events/datafestsiberia4/schedule

NB: время указано по Новосибирску (GMT+7)!

Вступить в сообщество:
https://ods.ai/

Соцсети Data Fest:
ht…

👍1

193 views14:54

Свидетели Градиента

Я там в презентации говорил, что точно тот же самый фокус можно проделать и с сигмоидной активацией, но в слайдах её не было. Вот вам 116 слоёв с TanH. Множитель подобрал с третьей попытки, то есть пришлось минуту повозиться. Скорость со второй попытки. Вспомнил что сеть стала толще, а активация капризнее, снизил скорость Адам-а и вуаля.

172 views11:21

Свидетели Градиента

7_Сверхглубокая_сеть_с_активацией_TanH_на_116_слоёв_и_множитель.png

7_Сверхглубокая_сеть_с_активацией_TanH_на_116_слоёв_и_множитель.png

deep116_mul_viewport00029.png

🔥3

186 views11:21

Свидетели Градиента

This media is not supported in your browser

VIEW IN TELEGRAM

184 views11:22

Свидетели Градиента

deep116_mul_viewport00029.png

180 views11:24

Свидетели Градиента

This media is not supported in your browser

VIEW IN TELEGRAM

А вот если скорость выбрать неправильно, то при сигмоиде градиент драматически и быстро, обрушивается и уже никогда не вернётся к красивым значениям.

194 viewsedited 17:05

Свидетели Градиента

Подбор гиперпараметров.png

На докладе я упомянул, что быстрое падение градиента при слишком большой скорости можно использовать для подбора гиперпараметров.
На картинке одна и та же толстенная нейросеть в 116 слоёв, в которой все параметры помножены на 1.8 чтобы градиент не затухал. Я учил её по 6 эпох (хватило бы и парочки) и после каждой эпохи записывал на сколько упал медианный градиент на первой матрице параметров (не абсолютное значение, которое серьёзно скачет, а именно по сравнению с прошлой эпохой), а так же как изменилось accuracy за шесть эпох обучения. Видно, что по мере снижения скорости градиент начинает рушиться всё менее стремительно, пока в какой-то момент колебания градиента не становятся сильно важнее тернда, а сеть не начинает успешно учиться. Прорыв происходит при 6.3е-06, а максимум прироста наблюдается на 1.26e-06

И это прям сильно быстрее, чем прогонять весь цикл обучения.

👍1

201 viewsedited 21:33

Свидетели Градиента

P.S. Примерно представляя как должна выглядеть эта картинка можно половинным делением найти правильную скорость буквально за десяток-два минут, не рисуя таких картинок по несколько часов. Но для общего понимания весьма полезно знать на что похожа эта функция, и понимать, что на скоростях выше 6.3е-06, а это сильно ниже константы Карпаты, вы не сможете отличить эту ситуацию от затухания градиента если смотреть будете только на loss

207 views21:39

Свидетели Градиента

Такой необычный вопрос, а есть ли среди тех, кто подписался на этот канал кто-нибудь, кто занимается академической наукой и хочет писать научные статьи?

192 views11:59

Свидетели Градиента

Я в докладе говорил, что чем глубже сеть, тем изрезаннее рельеф адаптивной функции на ней и тем, соответственно, медленнее её надо учить. Здесь на примере той же архитектуры, которую я использовал в докладе показана зависимость того как accuracy увеличивается за первые три эпохи обучения в зависимости от lr. Градиенты протащены сквозь сеть вторым методом из доклада - умноженим весов, поэтому обучение начинается сразу, первая фаза обучения целиком оказывается внутри первой эпохи.

И если сеть в 17 слоёв ещё вполне можно учить на константе Карпаты, хотя лучше брать 1e-4, то сеть в 107 слоёв нуждается уже в скоростях на полтора порядка меньших. В данном случае я ничего не говорю про скорость оптимальную для завершения обучения, там лучшими значениями могут быть совсем другие, оптимальные для достижения лучших предельных значений, но начинать определённо стоит имея в виду толщину, которую вы накрутили.

👍3🔥1

205 views09:56

Свидетели Градиента

На второй диаграмме показано как градиент, который мы протащили методом умножения весов падает всего за одну эпоху обучения. Уже с 26 слоёв хорошо видна закономерность. Если ваша основная метрика по каким-то причинам не информативна на малых значениях, или, например, задача сложная и начальный период обучения затягивается, можно посмотреть на каких скоростях градиент перестаёт отпадать. Оптимальную скорость начала обучения можно искать где-то на пол порядка ниже.

👍2

207 views09:56

Свидетели Градиента

Следуя принципу, что отрицательный результат - тоже результат отпишусь, пожалуй, и про неудачный эксперимент.

Есть такое логичное и в ряде случаев подтверждающееся предположение, что сгалживание рельефа зависит от степени округления, а кроме размера батча второй по доступности способ манипулировать степенью сглаживания momentum для алгоритма SGD или betas для Adam-а. И поскольку дисперсия градиента отражает характерный размер рельефа адаптивной функции была такая логичная мысль - берём и для тех параметров у которых дисперсия градиента выше, например у bias понизить её назначив им большее сглаживание в оптимизаторе. Иногда это работает. Пример был в первом докладе. Но когда я экспериментируя с подбором параметров в 26-слойной сети из последнего доклада попытался сделать то же самое, подобрать оптимальный момент сглаживания для разных слоёв по отдельности эффект получил строго нулевой - для любых моментов кроме самых маленьких и для любых размеров батча кроме самых маленьких результат одинаков.
Печалька.

Кстати, для очень маленького сглаживания, батчами по 1-2 семпла какой-то небольшой эффект наблюдался, но уж больно не оптимально идёт обучения в этом случае.

👍4

192 views09:26

Свидетели Градиента

Интересно, на сколько у Хинтона всё хорошо с научной чистоплотностью. Сколько лет прошло, но когда ведущий называет его создателем метода обратного распространения, тот поправил, что они всего лишь подтвердили применимость методов, над которыми работали разные учёные к глубоким сетям. https://www.youtube.com/watch?v=EnmetgyiMic

"Крестный отец ИИ" о том, что нас ждет | Выступление Джеффри Хинтона для MIT

Поддержать канал: https://boosty.to/turingtestrus

В этом глубоком и потрясающем выступлении на конференции MIT EmTech, Джеффри Хинтон, профессор Университета Торонто и бывший руководитель AI в Google, дает свою взгляд на будущее искусственного интеллекта.…

👍4

223 views15:26