Benchmarking Ultra-Low-Power $μ$NPUs

要約

効率的なオンデバイスニューラルネットワーク(NN)推論には、予測可能な遅延、プライバシーの強化、信頼性の向上、ベンダーの運用コストの削減など、クラウドベースの処理よりもさまざまな利点があります。
これにより、超低電力アプリケーション専用に設計されたニューラル加工ユニット($ \ mu $ npus)と呼ばれることが多いマイクロコントローラースケールNNアクセラレータの最近の急速な発展が引き起こされました。
このペーパーでは、これらのいくつかのプラットフォームの最初の独立したベンチマークと同様に、多くの商業的に利用可能な$ \ mu $ npusの最初の比較評価を紹介します。
モデルコンパイルフレームワークを開発およびオープンソースして、多様な$ \ MU $ NPUハードウェア全体で量子化されたモデルの一貫したベンチマークを有効にします。
ベンチマークは、エンドツーエンドのパフォーマンスをターゲットにし、他の要因とともに、モデル推論の遅延、消費電力、およびメモリオーバーヘッドが含まれています。
結果として得られる分析は、予想されるパフォーマンスの傾向と、ハードウェア仕様と実際のパフォーマンスの間の驚くべき格差の両方を明らかにします。これには、モデルの複雑さが増加する予期しないスケーリング動作を示す$ \ mu $ npusが含まれます。
私たちのフレームワークは、この急速に進化する空間のハードウェアデザイナーとソフトウェア開発者の両方にとって貴重な洞察とともに、$ \ mu $ npuプラットフォームをさらに評価するための基盤を提供します。

要約(オリジナル)

Efficient on-device neural network (NN) inference has various advantages over cloud-based processing, including predictable latency, enhanced privacy, greater reliability, and reduced operating costs for vendors. This has sparked the recent rapid development of microcontroller-scale NN accelerators, often referred to as neural processing units ($\mu$NPUs), designed specifically for ultra-low-power applications. In this paper we present the first comparative evaluation of a number of commercially-available $\mu$NPUs, as well as the first independent benchmarks for several of these platforms. We develop and open-source a model compilation framework to enable consistent benchmarking of quantized models across diverse $\mu$NPU hardware. Our benchmark targets end-to-end performance and includes model inference latency, power consumption, and memory overhead, alongside other factors. The resulting analysis uncovers both expected performance trends as well as surprising disparities between hardware specifications and actual performance, including $\mu$NPUs exhibiting unexpected scaling behaviors with increasing model complexity. Our framework provides a foundation for further evaluation of $\mu$NPU platforms alongside valuable insights for both hardware designers and software developers in this rapidly evolving space.

arxiv情報

著者 Josh Millar,Yushan Huang,Sarab Sethi,Hamed Haddadi,Anil Madhavapeddy
発行日 2025-03-28 16:14:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.LG パーマリンク