Ultra-Efficient On-Device Object Detection on AI-Integrated Smart Glasses with TinyissimoYOLO

要約

スマート グラスは、最先端のコンピューティング テクノロジー、高速化されたハードウェア アーキテクチャ、および小型 AI アルゴリズムのおかげで、急速に高度な機能を獲得しています。
満足のいくユーザーエクスペリエンスを得るために一日中使用することを目標とする場合、小型フォームファクターと制限されたバッテリー容量を特徴とするスマートグラスに AI を統合することは依然として困難です。
この論文では、スマート グラスでの長時間の連続動作を可能にする新しい低電力プロセッサを活用した小型機械学習アルゴリズムの設計と実装について説明します。
リアルタイムの物体検出におけるスマート グラスのエネルギー効率と遅延効率を調査します。
この目標に向けて、私たちは、ビジュアル AI 用のハードウェア アクセラレータを備えた新しいミリワット出力 RISC-V 並列プロセッサと、通信用の Bluetooth 低電力モジュールを含む 2 つのマイクロコントローラを備えた研究プラットフォームとしてスマート グラス プロトタイプを設計しました。
スマート グラスには、画像および音声センシング インターフェイスを含むパワー サイクリング メカニズムが統合されています。
さらに、私たちは、エネルギーとレイテンシに関するスマート グラスによる物体検出のベンチマークを目的として、TinyissimoYOLO v1.3、v5、および v8 と呼ばれる、マイクロコントローラーベースの推論用にカスタマイズされた 100 万個未満のパラメーターを備えた YOLO に基づく新しい小型ディープラーニング モデルのファミリーを開発しました。

スマート グラスのプロトタイプの評価では、許容可能な検出精度を確保しながら、TinyissimoYOLO の推論遅延が 17 ミリ秒、推論あたりのエネルギー消費が 1.59 mJ であることが実証されました。
さらなる評価により、画像キャプチャからアルゴリズムの予測までのエンドツーエンドの遅延は 56ms または 18 fps に相当し、総消費電力は 62.9mW で、154mAh バッテリーでの連続実行時間 9.3 時間に相当することが明らかになりました。
これらの結果は、より単純なタスク (画像分類) を 1 秒あたりわずか 7.3 fps で実行する MCUNet (TinyNAS+TinyEngine) よりも優れたパフォーマンスを示します。

要約(オリジナル)

Smart glasses are rapidly gaining advanced functionality thanks to cutting-edge computing technologies, accelerated hardware architectures, and tiny AI algorithms. Integrating AI into smart glasses featuring a small form factor and limited battery capacity is still challenging when targeting full-day usage for a satisfactory user experience. This paper illustrates the design and implementation of tiny machine-learning algorithms exploiting novel low-power processors to enable prolonged continuous operation in smart glasses. We explore the energy- and latency-efficient of smart glasses in the case of real-time object detection. To this goal, we designed a smart glasses prototype as a research platform featuring two microcontrollers, including a novel milliwatt-power RISC-V parallel processor with a hardware accelerator for visual AI, and a Bluetooth low-power module for communication. The smart glasses integrate power cycling mechanisms, including image and audio sensing interfaces. Furthermore, we developed a family of novel tiny deep-learning models based on YOLO with sub-million parameters customized for microcontroller-based inference dubbed TinyissimoYOLO v1.3, v5, and v8, aiming at benchmarking object detection with smart glasses for energy and latency. Evaluations on the prototype of the smart glasses demonstrate TinyissimoYOLO’s 17ms inference latency and 1.59mJ energy consumption per inference while ensuring acceptable detection accuracy. Further evaluation reveals an end-to-end latency from image capturing to the algorithm’s prediction of 56ms or equivalently 18 fps, with a total power consumption of 62.9mW, equivalent to a 9.3 hours of continuous run time on a 154mAh battery. These results outperform MCUNet (TinyNAS+TinyEngine), which runs a simpler task (image classification) at just 7.3 fps per second.

arxiv情報

著者 Julian Moosmann,Pietro Bonazzi,Yawei Li,Sizhen Bian,Philipp Mayer,Luca Benini,Michele Magno
発行日 2023-11-02 08:01:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク