NEW BOT Телеграм, страница

Channel created

09:42

Ссылка не мой доклад на ODS-овский Data Fest 2023:
https://www.youtube.com/watch?v=Npm-awHtfeM
В нём я по-немножку затрагиваю множество тем, большинство из которых не поместились в отведённые пол часа:
- Визуализация траектории обучения,
- ошибки в pytorch
- Дисперсия граджиентов и диаграмма градиентов вообще.
- Влиянеи импульса (momentum) на ход обучения нейросети.
- Размеры batch как фактор сглаживания дисперсии градиентов в всети
- дополнительный momentum для bias-ов (в нём заключается половина пользы от ).
- И другие тонкости манипулирования импульсами.

YouTube

Влад Голощапов - Моментум истины: Не всем известные свойства оптимизаторов с импульсом - SGD,Adam..

Моментум истины: Не всем известные свойства оптимизаторов с импульсом - SGD, Adam и т.д., напомнившие о себе ошибкой в torch.optim.SGD и визуализация внутреннего состояния обучения

Data Fest 2023:
https://ods.ai/events/datafestonline2023
Трек "Random DS/ML":…

178 views11:00

Свидетели Градиента

Комментарии забыл включить...

👍4

182 views05:29

Свидетели Градиента

8_Влад_Голощапов_Data_Fest_Siberia_2023_Затухание_градиентов.pptx

49.9 MB

Плохо всё делать в последний момент и невыспавшимся. 😩. В презентации допущена важная ошибка, там где показано как получить медианы градиентов одной строкой я, собственно .grad забыл добавить. Правильная строчка выглядит вот так:
[(n,p.grad.view(-1)[p .grad.view(-1)!=0].abs().log10().median().item()) for n, p in model.named_parameters()]
Исправленная презентация прилагается.

👍6

207 views07:59

Свидетели Градиента

https://www.youtube.com/live/i55749ii9xk?si=ayBGJlmzl-xpIFJU&t=23355
Ссылка на второй доклад. Если вы здесь, значит его уже видели, но, возможно, тут в комментариях можно обсудить всякое, что было в докладе.

YouTube

Data Fest Siberia 4, Академпарк, 7 октября

Трансляция четвертого оффлайн Феста в Сибири!

Полное расписание мероприятия доступны на ODS.AI:
https://ods.ai/events/datafestsiberia4/schedule

NB: время указано по Новосибирску (GMT+7)!

Вступить в сообщество:
https://ods.ai/

Соцсети Data Fest:
ht…

👍1

193 views14:54

Свидетели Градиента

Я там в презентации говорил, что точно тот же самый фокус можно проделать и с сигмоидной активацией, но в слайдах её не было. Вот вам 116 слоёв с TanH. Множитель подобрал с третьей попытки, то есть пришлось минуту повозиться. Скорость со второй попытки. Вспомнил что сеть стала толще, а активация капризнее, снизил скорость Адам-а и вуаля.

172 views11:21

Свидетели Градиента

7_Сверхглубокая_сеть_с_активацией_TanH_на_116_слоёв_и_множитель.png

541.2 KB

7_Сверхглубокая_сеть_с_активацией_TanH_на_116_слоёв_и_множитель.png

658.3 KB

deep116_mul_viewport00029.png

775.1 KB

🔥3

186 views11:21

Свидетели Градиента