Mobiprox: Supporting Dynamic Approximate Computing on Mobiles

要約

実行時に調整可能なコンテキスト依存のネットワーク圧縮により、モバイル ディープ ラーニング (DL) は、頻繁に変化するリソースの可用性、入力の「難易度」、またはユーザーのニーズに適応できるようになります。
既存の圧縮技術は、DL のメモリ、処理、およびエネルギー負担を大幅に削減しますが、結果として得られるモデルは永久に損なわれる傾向があり、リソース使用量の削減のために推論能力が犠牲になります。
一方、既存の調整可能な圧縮アプローチは、高価な再トレーニングを必要とし、圧縮を適応させるための任意の戦略をサポートせず、モバイル対応の実装を提供しません。
本稿では、柔軟な精度でモバイル DL を可能にするフレームワーク Mobiprox を紹介します。
Mobiprox は、テンソル演算の調整可能な近似を実装し、個々のネットワーク層のランタイムに適応可能な近似を可能にします。
Mobiprox に含まれるプロファイラーとチューナーは、リソースの使用を最小限に抑えながら望ましい推論品質をもたらす、最も有望なニューラル ネットワーク近似構成を特定します。
さらに、入力データの難易度などのコンテキスト要因に応じて、モバイル DL モデルのレイヤー全体の近似レベルを動的に調整する制御戦略を開発します。
当社は Android OS に Mobiprox を実装し、人間のアクティビティ認識や口頭キーワード検出などのさまざまなモバイル ドメインでの実験を通じて、推論精度への影響を最小限に抑えながらシステム全体のエネルギーを最大 15% 節約できることを実証しました。

要約(オリジナル)

Runtime-tunable context-dependent network compression would make mobile deep learning (DL) adaptable to often varying resource availability, input ‘difficulty’, or user needs. The existing compression techniques significantly reduce the memory, processing, and energy tax of DL, yet, the resulting models tend to be permanently impaired, sacrificing the inference power for reduced resource usage. The existing tunable compression approaches, on the other hand, require expensive re-training, do not support arbitrary strategies for adapting the compression and do not provide mobile-ready implementations. In this paper we present Mobiprox, a framework enabling mobile DL with flexible precision. Mobiprox implements tunable approximations of tensor operations and enables runtime-adaptable approximation of individual network layers. A profiler and a tuner included with Mobiprox identify the most promising neural network approximation configurations leading to the desired inference quality with the minimal use of resources. Furthermore, we develop control strategies that depending on contextual factors, such as the input data difficulty, dynamically adjust the approximation levels across a mobile DL model’s layers. We implement Mobiprox in Android OS and through experiments in diverse mobile domains, including human activity recognition and spoken keyword detection, demonstrate that it can save up to 15% system-wide energy with a minimal impact on the inference accuracy.

arxiv情報

著者 Matevž Fabjančič,Octavian Machidon,Hashim Sharif,Yifan Zhao,Saša Misailović,Veljko Pejović
発行日 2024-02-22 16:48:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク