Linear Gaussian Bounding Box Representation and Ring-Shaped Rotated Convolution for Oriented Object Detection


方向関連情報をより適切に抽出するために、現在の方法は主に、方向性バウンディング ボックス (OBB) の合理的な表現の設計と回転に依存する特徴抽出に焦点を当てています。
ただし、既存の OBB 表現は、境界の不連続性や表現の曖昧さの問題に悩まされることがよくあります。
ガウス バウンディング ボックス (GBB) は、これらの OBB 表現の問題を回避しますが、GBB を直接回帰すると数値が不安定になりやすくなります。
本稿では、新しい OBB 表現である線形 GBB (LGBB) を提案します。
GBB の要素を線形変換することにより、LGBB は境界の不連続性や表現の曖昧さの問題がなく、高い数値安定性を備えています。
この問題に対処するために、リング状回転畳み込み (RRC) を提案します。
RRC は、特徴マップを任意の方向に適応的に回転させることで、リング状の受容野の下で回転に敏感な特徴を抽出し、回転に敏感な特徴とコンテキスト情報を迅速に集約します。
RRC はプラグアンドプレイでさまざまなモデルに適用できます。
実験結果は、提案された LGBB と RRC が効果的であり、最先端 (SOTA) のパフォーマンスを達成することを示しています。
LGBB と RRC をさまざまなモデルに統合することで、DOTA および HRSC2016 データセットの検出精度が効果的に向上します。


Due to the frequent variability of object orientation, accurate prediction of orientation information remains a challenge in oriented object detection. To better extract orientation-related information, current methods primarily focus on the design of reasonable representations of oriented bounding box (OBB) and rotation-sensitive feature extraction. However, existing OBB representations often suffer from boundary discontinuity and representation ambiguity problems. Methods of designing continuous and unambiguous regression losses do not essentially solve such problems. Gaussian bounding box (GBB) avoids these OBB representation problems, but directly regressing GBB is susceptible to numerical instability. In this paper, we propose linear GBB (LGBB), a novel OBB representation. By linearly transforming the elements of GBB, LGBB does not have the boundary discontinuity and representation ambiguity problems, and have high numerical stability. On the other hand, current rotation-sensitive feature extraction methods based on convolutions can only extract features under a local receptive field, which is slow in aggregating rotation-sensitive features. To address this issue, we propose ring-shaped rotated convolution (RRC). By adaptively rotating feature maps to arbitrary orientations, RRC extracts rotation-sensitive features under a ring-shaped receptive field, rapidly aggregating rotation-sensitive features and contextual information. RRC can be applied to various models in a plug-and-play manner. Experimental results demonstrate that the proposed LGBB and RRC are effective and achieve state-of-the-art (SOTA) performance. By integrating LGBB and RRC into various models, the detection accuracy is effectively improved on DOTA and HRSC2016 datasets.


著者 Zhen Zhou,Yunkai Ma,Junfeng Fan,Zhaoyang Liu,Fengshui Jing,Min Tan
発行日 2023-11-09 14:45:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク