Category-Aware Dynamic Label Assignment with High-Quality Oriented Proposal

要約

空撮画像中の物体は通常、複雑な背景に埋め込まれ、任意の方向を示す。任意の向きの物体を表現するために配向バウンディングボックス(OBB: oriented bounding box)を採用する場合、角度の周期性により、ラベル回帰値が境界で不連続になり、損失関数に急激な変動を引き起こす可能性がある。この問題に対処するため、複素平面に基づくOBB表現を配向検出フレームワークに導入し、三角関数損失関数を提案する。さらに、複雑な背景環境や、空中画像における大きな物体の有意差に関する事前知識を活用し、角度情報を予測するためのコンフォーマRPNヘッドを構築する。提案する損失関数とコンフォーマRPNヘッドは、高品質な指向性提案を共同で生成する。提案ラベルの割り当てをIoUのみに依存することの限界に対処するために、予測されたカテゴリフィードバックに基づく、カテゴリを考慮した動的ラベル割り当てを提案する。この手法により、負のサンプル選択がより代表的なものとなり、分類と回帰特徴間の整合性が保証される。4つの現実的な指向性検出データセットを用いて実験を行い、その結果、最小限のパラメータチューニングと時間コストで、指向性物体検出において優れた性能を実証した。具体的には、DOTA-v1.0、DOTA-v1.5、DIOR-R、HRSC2016データセットにおいて、それぞれ82.02%、71.99%、69.87%、98.77%の平均平均精度(mAP)スコアを達成した。

要約(オリジナル)

Objects in aerial images are typically embedded in complex backgrounds and exhibit arbitrary orientations. When employing oriented bounding boxes (OBB) to represent arbitrary oriented objects, the periodicity of angles could lead to discontinuities in label regression values at the boundaries, inducing abrupt fluctuations in the loss function. To address this problem, an OBB representation based on the complex plane is introduced in the oriented detection framework, and a trigonometric loss function is proposed. Moreover, leveraging prior knowledge of complex background environments and significant differences in large objects in aerial images, a conformer RPN head is constructed to predict angle information. The proposed loss function and conformer RPN head jointly generate high-quality oriented proposals. A category-aware dynamic label assignment based on predicted category feedback is proposed to address the limitations of solely relying on IoU for proposal label assignment. This method makes negative sample selection more representative, ensuring consistency between classification and regression features. Experiments were conducted on four realistic oriented detection datasets, and the results demonstrate superior performance in oriented object detection with minimal parameter tuning and time costs. Specifically, mean average precision (mAP) scores of 82.02%, 71.99%, 69.87%, and 98.77% were achieved on the DOTA-v1.0, DOTA-v1.5, DIOR-R, and HRSC2016 datasets, respectively.

arxiv情報

著者 Mingkui Feng,Hancheng Yu,Xiaoyu Dang,Ming Zhou
発行日 2024-07-03 15:36:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク