要約
このペーパーでは、超低電力組み込みプロセッサ用の新しいビデオ オブジェクト検出フレームワークである、Multi-Resolution Rescored Byte-Track (MR2-ByteTrack) を紹介します。
この方法では、高解像度画像 (320$\times$320 ピクセル) の処理を複数の処理で交互に行うことにより、既製のディープ ニューラル ネットワーク (DNN) ベースの物体検出器の平均計算負荷を最大 2.25$\times$ 削減します。
フレームのサイズが縮小されました (192$\times$192 ピクセル)。
画像入力サイズの縮小による精度の低下に対処するために、MR2-ByteTrack は ByteTrack トラッカーを使用して出力検出を時間の経過とともに相関させ、新しい確率的 Rescore アルゴリズムを使用して潜在的な誤分類を修正します。
MR2-ByteTrack を使用して、さまざまな最先端の DNN オブジェクト検出器の入力として、高解像度画像ごとに 2 つのダウンサイズ画像をインターリーブすることにより、平均精度が 2.16% 向上し、遅延が 43% 削減されることを実証しました。
GAP9 マイクロコントローラーでの結果を、フル解像度の画像のみを使用したベースラインのフレームごとの推論スキームと比較しました。
コードはhttps://github.com/Bomps4/Multi_Resolution_Rescored_ByteTrackで入手できます。
要約(オリジナル)
This paper introduces Multi-Resolution Rescored Byte-Track (MR2-ByteTrack), a novel video object detection framework for ultra-low-power embedded processors. This method reduces the average compute load of an off-the-shelf Deep Neural Network (DNN) based object detector by up to 2.25$\times$ by alternating the processing of high-resolution images (320$\times$320 pixels) with multiple down-sized frames (192$\times$192 pixels). To tackle the accuracy degradation due to the reduced image input size, MR2-ByteTrack correlates the output detections over time using the ByteTrack tracker and corrects potential misclassification using a novel probabilistic Rescore algorithm. By interleaving two down-sized images for every high-resolution one as the input of different state-of-the-art DNN object detectors with our MR2-ByteTrack, we demonstrate an average accuracy increase of 2.16% and a latency reduction of 43% on the GAP9 microcontroller compared to a baseline frame-by-frame inference scheme using exclusively full-resolution images. Code available at: https://github.com/Bomps4/Multi_Resolution_Rescored_ByteTrack
arxiv情報
著者 | Luca Bompani,Manuele Rusci,Daniele Palossi,Francesco Conti,Luca Benini |
発行日 | 2024-04-17 15:45:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google