FemtoDet: An Object Detection Baseline for Energy Versus Performance Tradeoffs

要約

エッジ デバイスの効率的な検出器は、多くの場合、パラメーターや速度カウントなどのメトリックに対して最適化されていますが、検出器のエネルギーとの相関は弱いままです。
ただし、畳み込みニューラル ネットワーク (CNN) のビジョン アプリケーションの中には、常時オンの監視カメラなど、エネルギーの制約が重要なものもあります。
この論文は、2 つの観点からエネルギーとパフォーマンスの間のトレードオフに到達するように検出器を設計することにより、ベースラインとして機能することを目的としています。
首に。
過去の研究で過小評価されていたこれらの詳細は、検出器のエネルギー消費に深刻な影響を与えます。
2) ジレンマティックなエネルギー性能の問題を打破するために、\textit{FemtoDet} という名前の発見された低エネルギー コンポーネントを使用して、エネルギーによって駆動されるバランス検出器を提案します。
新しい構造に加えて、畳み込みとトレーニング戦略の最適化を考慮することにより、FemtoDet をさらに改善します。
具体的には、畳み込み最適化のための新しいインスタンス境界拡張 (IBE) モジュールを開発して、CNN の限られた容量と多様な空間表現における検出タスクとの間の矛盾を克服し、トレーニング戦略を最適化して脱出するための再帰的ウォームリスタート (RecWR) を提案します。
一般的な拡張で生成されるデータシフトを考慮した、軽量検出器のサブ最適化。
その結果、わずか 68.77k のパラメーターを持つ FemtoDet は、PASCAL VOC で 46.3 AP50 の競争力のあるスコアを達成し、RTX 3090 で 7.83W の電力を達成しました。

要約(オリジナル)

Efficient detectors for edge devices are often optimized for metrics like parameters or speed counts, which remain weak correlation with the energy of detectors. However, among vision applications of convolutional neural networks (CNNs), some, such as always-on surveillance cameras, are critical for energy constraints. This paper aims to serve as a baseline by designing detectors to reach tradeoffs between energy and performance from two perspectives: 1) We extensively analyze various CNNs to identify low-energy architectures, including the selection of activation functions, convolutions operators, and feature fusion structures on necks. These underappreciated details in past works seriously affect the energy consumption of detectors; 2) To break through the dilemmatic energy-performance problem, we propose a balanced detector driven by energy using discovered low-energy components named \textit{FemtoDet}. In addition to the novel construction, we further improve FemtoDet by considering convolutions and training strategy optimizations. Specifically, we develop a new instance boundary enhancement (IBE) module for convolution optimization to overcome the contradiction between the limited capacity of CNNs and detection tasks in diverse spatial representations, and propose a recursive warm-restart (RecWR) for optimizing training strategy to escape the sub-optimization of light-weight detectors, considering the data shift produced in popular augmentations. As a result, FemtoDet with only 68.77k parameters achieves a competitive score of 46.3 AP50 on PASCAL VOC and power of 7.83W on RTX 3090. Extensive experiments on COCO and TJU-DHD datasets indicate that the proposed method achieves competitive results in diverse scenes.

arxiv情報

著者 Peng Tu,Xu Xie,Ming Ling,Min Yang,Guo AI,Yawen Huang,Yefeng Zheng
発行日 2023-01-17 06:24:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク