Toward Minimal Misalignment at Minimal Cost in One-Stage and Anchor-Free Object Detection

要約

一般的な物体検出モデルは、分類ブランチと回帰ブランチで構成されているが、タスクドライバが異なるため、これら2つのブランチは、同じスケールレベル、同じ空間位置からの特徴量に対して異なる感度を持つ。分類の信頼度が高い点は回帰の品質も高いという仮定に基づく点ベースの予測法は、位置ずれの問題を引き起こす。我々の分析によると、この問題はさらに、スケールのずれと空間のずれが具体的に構成されている。我々は、この現象を最小限のコストで解決することを目指している。すなわち、ヘッドネットワークのわずかな調整と、硬直的なものに代わる新しいラベル割り当て方法である。実験によると、ベースラインであるFCOS(1ステージ・アンカーフリー物体検出モデル)と比較して、本モデルはバックボーンを変えても一貫して3AP程度の改善を示し、本手法のシンプルさと効率性の両方を実証している。

要約(オリジナル)

Common object detection models consist of classification and regression branches, due to different task drivers, these two branches have different sensibility to the features from the same scale level and the same spatial location. The point-based prediction method, which is based on the assumption that the high classification confidence point has the high regression quality, leads to the misalignment problem. Our analysis shows, the problem is further composed of scale misalignment and spatial misalignment specifically. We aim to resolve the phenomenon at minimal cost: a minor adjustment of the head network and a new label assignment method replacing the rigid one. Our experiments show that, compared to the baseline FCOS, a one-stage and anchor-free object detection model, our model consistently get around 3 AP improvement with different backbones, demonstrating both simplicity and efficiency of our method.

arxiv情報

著者 Shuaizheng Hao,Hongzhe Liu,Ningwei Wang,Cheng Xu
発行日 2022-07-06 09:51:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク