NEW BOT Телеграм, страница

🐡Google Coral 🎣

Приехала игрушка. Узнаём, что это за TPU этот ваш такой.

614 viewsAlexander Mamaev, 12:39

🏎 Pytorch Cuda Graphs ⚡️

К новостям обновлений Pytorch.
Обычно вычисления в пайторч происходят следующим образом: у нас есть какой-то код на питоне, который контролирует порядок операций, аля перемножения матриц, сверток и прочего. Каждая такая операция представляет из себя один или несколько cuda kernels, это такая маленькая функция которая может выполняться параллельно на множестве ядер видеокарты.

Проблема здесь заключается в том, что в угоду того, чтобы вам было удобно дебагать и получать результаты работы вашей модели, процесс вычислений контроллируется именно на CPU, а значит после каждого выполнения kernel'а управление программой возвращается процессору, в то время пока GPU простаивает, в связи с чем мы теряем в производительности.

На одной маленькой видеокарте это может быть совсем незаметно, но когда мы говорим о больших кластерах, то эти задержи преобретают колосальные масштабы. Ведь при обучении на множестве гпу нам необходима синхронизация между гпу/машинами, а такого рода задержки усугубляют весь процесс, ведь вся система движется с максимальной скоростью самого слабого звена (в нашем случае процессора, на который может влиять множество факторов, от текущей загрузки, до температуры и конфигураций троттлинга)

Cuda Graphs решает эту проблему - давайте вместо того, чтобы передавать управление cpu каждый раз, возвращая результат работы, мы построим конвеер прямо на видеокарте, на котором все будет считаться быстро, без задержек, а уже результат передавать обратно после расчета всего графа.
Звучит круто, и так оно и есть! Ребята смогли ускорить обучение Mask RCNN в 1.75 раза.
Но, конечно мы жертвуем гибкостью, никаких вам динамических шейпов или условий по среди модели, все четко и статично.

Подробнее и с примерами кода читать тут:
https://pytorch.org/blog/accelerating-pytorch-with-cuda-graphs/

658 viewsAlexander Mamaev, edited 20:22