Flexible and Fully Quantized Ultra-Lightweight TinyissimoYOLO for Ultra-Low-Power Edge Systems

要約

このペーパーでは、数ミリワットの電力エンベロープを備えたエッジ システム向けに設計された、非常に柔軟で完全に量子化された超軽量の物体検出ネットワークである TinyissimoYOLO のバリアントを展開して調査します。
実験的な測定により、ネットワークの検出パフォーマンスの包括的な特性評価を示し、入力解像度、オブジェクト クラスの数、隠れ層の調整などのさまざまなパラメーターの影響を調査します。
TinyissimoYOLO のバリアントを最先端の超低電力エクストリーム エッジ プラットフォームにデプロイし、レイテンシー、エネルギー効率、ワークロードを効率的に並列化する機能について詳細な比較を示します。
特に、この論文では、オンチップ ハードウェア アクセラレータ、ARM Cortex-M7 コア (ST Microelectronics の STM32H7)、2 つの ARM Cortex-M7 コア (ST Microelectronics の STM32H7) を使用した場合と使用しない場合の、新しい並列 RISC-V プロセッサ (Greenwaves の GAP9) の比較を示しています。
M4 コア (STM の STM32L4 および Ambiq の Apollo4b)、および CNN ハードウェア アクセラレータ (Analog Devices MAX78000) を備えたマルチコア プラットフォーム。
実験結果によると、GAP9 のハードウェア アクセラレータは、それぞれ 2.12ms と 150uJ という最低の推論レイテンシとエネルギーを達成しており、これは次に優れたプラットフォームである MAX78000 と比べて約 2 倍高速で 20% 効率的です。
GAP9 のハードウェア アクセラレータは、112×112 ピクセルと 10 の検出クラスを備えた TinyissimoYOLO の高解像度バージョンを 3.2 ミリ秒以内に実行でき、消費電力は 245uJ です。
多用途の汎用システムの競争力を示すために、さまざまな動作ポイントで GAP9 上のマルチコア実装を展開してプロファイリングし、最も低い遅延で 11.3 ミリ秒、最もエネルギー効率の高い構成で 490uJ を達成しました。
この論文では、リアルタイムの超低電力エッジ推論のための最先端の検出データセットに対する TinyissimoYOLO の適合性と柔軟性を実証します。

要約(オリジナル)

This paper deploys and explores variants of TinyissimoYOLO, a highly flexible and fully quantized ultra-lightweight object detection network designed for edge systems with a power envelope of a few milliwatts. With experimental measurements, we present a comprehensive characterization of the network’s detection performance, exploring the impact of various parameters, including input resolution, number of object classes, and hidden layer adjustments. We deploy variants of TinyissimoYOLO on state-of-the-art ultra-low-power extreme edge platforms, presenting an in-depth a comparison on latency, energy efficiency, and their ability to efficiently parallelize the workload. In particular, the paper presents a comparison between a novel parallel RISC-V processor (GAP9 from Greenwaves) with and without use of its on-chip hardware accelerator, an ARM Cortex-M7 core (STM32H7 from ST Microelectronics), two ARM Cortex-M4 cores (STM32L4 from STM and Apollo4b from Ambiq), and a multi-core platform with a CNN hardware accelerator (Analog Devices MAX78000). Experimental results show that the GAP9’s hardware accelerator achieves the lowest inference latency and energy at 2.12ms and 150uJ respectively, which is around 2x faster and 20% more efficient than the next best platform, the MAX78000. The hardware accelerator of GAP9 can even run an increased resolution version of TinyissimoYOLO with 112×112 pixels and 10 detection classes within 3.2ms, consuming 245uJ. To showcase the competitiveness of a versatile general-purpose system we also deployed and profiled a multi-core implementation on GAP9 at different operating points, achieving 11.3ms with the lowest-latency and 490uJ with the most energy-efficient configuration. With this paper, we demonstrate the suitability and flexibility of TinyissimoYOLO on state-of-the-art detection datasets for real-time ultra-low-power edge inference.

arxiv情報

著者 Julian Moosmann,Hanna Mueller,Nicky Zimmerman,Georg Rutishauser,Luca Benini,Michele Magno
発行日 2023-07-12 08:26:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク