FemtoDet: An Object Detection Baseline for Energy Versus Performance Tradeoffs

要約

エッジ デバイスの効率的な検出器は、パラメータや速度カウントなどのメトリクスに合わせて最適化されていることが多く、これらは検出器のエネルギーとの相関が弱いままです。
ただし、畳み込みニューラル ネットワーク (CNN) のビジョン アプリケーションの中には、常時稼働の監視カメラなど、エネルギー制約にとって重要なものもあります。
このペーパーは、次の 2 つの観点からエネルギーとパフォーマンスの間のトレードオフに達する検出器を設計することにより、ベースラインとして機能することを目的としています。 1) さまざまな CNN を広範囲に分析して、活性化関数、畳み込み演算子、および特徴融合構造の選択を含む、低エネルギー アーキテクチャを特定します。
首に。
過去の研究で過小評価されてきたこれらの詳細は、検出器のエネルギー消費に深刻な影響を与えます。
2) エネルギー性能のジレンマ問題を打開するために、\textit{FemtoDet} という名前の発見された低エネルギーコンポーネントを使用して、エネルギーによって駆動される平衡検出器を提案します。
新しい構造に加えて、畳み込みとトレーニング戦略の最適化を考慮することで、FemtoDet をさらに改善します。
具体的には、CNNの限られた能力と多様な空間表現における検出タスクの間の矛盾を克服するための畳み込み最適化のための新しいインスタンス境界強化(IBE)モジュールを開発し、回避するためのトレーニング戦略を最適化するための再帰的ウォームリスタート(RecWR)を提案します。
一般的な拡張で生成されるデータシフトを考慮した、軽量検出器の部分最適化。
その結果、わずか 68.77k のパラメータを持つ FemtoDet は、PASCAL VOC で 46.3 AP50 の競合スコア、RTX 3090 で 7.83 W の電力を達成しました。 COCO および TJU-DHD データセットでの広範な実験は、提案された方法がさまざまなシーンで競合的な結果を達成することを示しています。

要約(オリジナル)

Efficient detectors for edge devices are often optimized for metrics like parameters or speed counts, which remain weak correlation with the energy of detectors. However, among vision applications of convolutional neural networks (CNNs), some, such as always-on surveillance cameras, are critical for energy constraints. This paper aims to serve as a baseline by designing detectors to reach tradeoffs between energy and performance from two perspectives: 1) We extensively analyze various CNNs to identify low-energy architectures, including the selection of activation functions, convolutions operators, and feature fusion structures on necks. These underappreciated details in past works seriously affect the energy consumption of detectors; 2) To break through the dilemmatic energy-performance problem, we propose a balanced detector driven by energy using discovered low-energy components named \textit{FemtoDet}. In addition to the novel construction, we further improve FemtoDet by considering convolutions and training strategy optimizations. Specifically, we develop a new instance boundary enhancement (IBE) module for convolution optimization to overcome the contradiction between the limited capacity of CNNs and detection tasks in diverse spatial representations, and propose a recursive warm-restart (RecWR) for optimizing training strategy to escape the sub-optimization of light-weight detectors, considering the data shift produced in popular augmentations. As a result, FemtoDet with only 68.77k parameters achieves a competitive score of 46.3 AP50 on PASCAL VOC and power of 7.83W on RTX 3090. Extensive experiments on COCO and TJU-DHD datasets indicate that the proposed method achieves competitive results in diverse scenes.

arxiv情報

著者 Peng Tu,Xu Xie,Guo AI,Yuexiang Li,Yawen Huang,Yefeng Zheng
発行日 2023-05-25 15:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク