Delving into the Scale Variance Problem in Object Detection

要約

オブジェクトのローカルコンテキストを抽出する際の畳み込み機能により、オブジェクト検出は過去10年間で大幅な進歩を遂げました。
ただし、オブジェクトのスケールは多様であり、現在の畳み込みでは単一スケールの入力しか処理できません。
したがって、そのようなスケール分散問題を処理する際の固定受容野を伴う従来の畳み込みの能力は制限されている。
マルチスケールの特徴表現は、スケール分散の問題を軽減する効果的な方法であることが証明されています。
最近の研究では、主に特定のスケールとの部分的な接続を採用するか、すべてのスケールの機能を集約し、スケール全体のグローバル情報に焦点を当てています。
ただし、空間次元と深度次元にわたる情報は無視されます。
これに触発されて、この問題を処理するためのマルチスケール畳み込み(MSConv)を提案します。
MSConvは、スケール、空間、深度の情報を同時に考慮して、マルチスケール入力をより包括的に処理できます。
MSConvは効果的で計算効率が高く、計算コストは​​わずかに増加します。
ほとんどのシングルステージオブジェクト検出器では、検出ヘッドで従来の畳み込みをMSConvに置き換えると、APが2.5 \%以上向上し(COCO 2017データセットで)、FLOPがわずか3 \%増加します。
MSConvは、2段階の物体検出器にも柔軟で効果的です。
主流の2ステージオブジェクト検出器に拡張すると、MSConvはAPを最大3.0 \%向上させることができます。
シングルスケールテストでの最良のモデルは、COCO 2017 \ textit{test-dev}分割で48.9\%APを達成します。これは、多くの最先端の方法を上回っています。

要約(オリジナル)

Object detection has made substantial progress in the last decade, due to the capability of convolution in extracting local context of objects. However, the scales of objects are diverse and current convolution can only process single-scale input. The capability of traditional convolution with a fixed receptive field in dealing with such a scale variance problem, is thus limited. Multi-scale feature representation has been proven to be an effective way to mitigate the scale variance problem. Recent researches mainly adopt partial connection with certain scales, or aggregate features from all scales and focus on the global information across the scales. However, the information across spatial and depth dimensions is ignored. Inspired by this, we propose the multi-scale convolution (MSConv) to handle this problem. Taking into consideration scale, spatial and depth information at the same time, MSConv is able to process multi-scale input more comprehensively. MSConv is effective and computationally efficient, with only a small increase of computational cost. For most of the single-stage object detectors, replacing the traditional convolutions with MSConvs in the detection head can bring more than 2.5\% improvement in AP (on COCO 2017 dataset), with only 3\% increase of FLOPs. MSConv is also flexible and effective for two-stage object detectors. When extended to the mainstream two-stage object detectors, MSConv can bring up to 3.0\% improvement in AP. Our best model under single-scale testing achieves 48.9\% AP on COCO 2017 \textit{test-dev} split, which surpasses many state-of-the-art methods.

arxiv情報

著者 Junliang Chen,Xiaodong Zhao,Linlin Shen
発行日 2022-06-16 14:52:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク