NEW BOT Телеграм, страница

Ох мои бенчмарки (Часть 1)

😔

Сейчас на работе я занимаюсь оптимизацией нейронных сеток для мобилок 🔼. Оптимизация под них подразумевает под собой замеры:
— По метрикам качества;
— По скорости работы;
— По кушанию батарейки;
— По кушанию оперативки.

В большинстве случаев с первым пунктом проблем нет: написал скрипты для прогона, посчитал по результатам метрики, сделал выводы. С третьим и четвертым достаточно инструментов от вендоров: на android это профилировщик Android Studio, на iOS — профилировщик Xcode. А вот со вторым проблема. Много проблем. 😮

🤔 Первое: под девайс надо собрать бенчмарк. Это, казалось бы простое дельце, только кажется таким. Приходится убивать много времени для того, чтобы совместить все версии библиотек на всех девайсах.

🤔 Второе: некоторые версии бенчмарка не поддерживают какие-то операции с сетью, а некоторые работают отлично. Тут варианта два: думать как-то над архитектурой сети или над версией бенчмарка. Архитектуру менять очень не хочется (это повлечет много работы по обучению сети), тем более она работает на более свежих версиях. Приходится менять версию. Но это влечет за собой то, что придется менять версию всей библиотеки в продакшн-коде. А учитывая, что у нас монорепа, это сделать ой как не просто: то, что у меня чего-то там не запускается, так себе причина менять в монорепе — у всех же работает.

🤔 Третье: троттлинг (механизм защиты процессора от перегрева путем занижения производительности). Если запустить наши нейронки на среднестатистическом ПК на CPU — я уверяю вас, они будут летать и вы даже этого не заметите. Но на телефонах всё не так просто. Там другие процессоры и компоненты, они больше подвержены перегреву. А для бенчмарков важно иметь +- стабильную производительность. Я уже не говорю о том, что чиселки должны из раза в раз повторяться по одному и тому же тесту.

🤔 Четвертое: тестов ОЧЕНЬ много. Больше 500 на один девайс. Нужно думать о том, как их провести и как потом интерпретировать. 500 чиселок очень сложно просматривать (поверьте мне). Более того, сами по себе тесты разные и некоторые между собой (внутри одного девайса) не сравнимы. Например, есть замеры на CPU, GPU, NPU и т.д.

🤔 Пятое: девайсы могут оключаться и включаться, перезагружаться, обновляться и прочие радости жизни. Нужно уметь несмотря на всё это восстанавливать проведение замеров, а именно продолжать с того места, откуда всё закончилось. И при этом сохранить себе нервы.

Первая проблема решается вручную. По второй проблеме я надеюсь доказать, что замена всё же необходима.👨‍💻 А по всем остальным проблемам решение я расскажу в следующем посте.☺️

Please open Telegram to view this post