Detecting Rotated Objects as Gaussian Distributions and Its 3-D Generalization

要約

既存の検出方法は、通常、パラメーター化された境界ボックス (BBox) を使用して (水平) オブジェクトをモデル化し、検出します。追加の回転角度パラメーターは、回転したオブジェクトに使用されます。
このようなメカニズムには、回転検出、特に高 IoU (0.75 など) での高精度検出の効果的な回帰損失を構築する上で根本的な制限があると主張します。
代わりに、回転したオブジェクトをガウス分布としてモデル化することを提案します。
直接的な利点は、2 つのガウス間の距離に関する新しい回帰損失です。
カルバック ライブラー ダイバージェンス (KLD) は、既存の方法では十分に対処されていない実際の検出パフォーマンス メトリックをうまく調整できます。
さらに、2 つのボトルネック、つまり境界の不連続性と正方形のような問題も解消されます。
また、効率的なガウス メトリック ベースのラベル割り当て戦略を提案して、パフォーマンスをさらに向上させます。
興味深いことに、ガウスベースの KLD 損失の下で BBox パラメーターの勾配を分析することにより、これらのパラメーターが解釈可能な物理的意味で動的に更新されることを示します。これは、特に高精度検出に対するアプローチの有効性を説明するのに役立ちます。
方向推定を処理するために調整されたアルゴリズム設計と、さまざまな基本検出器を使用した 12 の公開データセット (2-D/3-D、航空/テキスト/顔画像) での実験結果を使用して、アプローチを 2-D から 3-D に拡張します。
その優位性を示します。

要約(オリジナル)

Existing detection methods commonly use a parameterized bounding box (BBox) to model and detect (horizontal) objects and an additional rotation angle parameter is used for rotated objects. We argue that such a mechanism has fundamental limitations in building an effective regression loss for rotation detection, especially for high-precision detection with high IoU (e.g. 0.75). Instead, we propose to model the rotated objects as Gaussian distributions. A direct advantage is that our new regression loss regarding the distance between two Gaussians e.g. Kullback-Leibler Divergence (KLD), can well align the actual detection performance metric, which is not well addressed in existing methods. Moreover, the two bottlenecks i.e. boundary discontinuity and square-like problem also disappear. We also propose an efficient Gaussian metric-based label assignment strategy to further boost the performance. Interestingly, by analyzing the BBox parameters’ gradients under our Gaussian-based KLD loss, we show that these parameters are dynamically updated with interpretable physical meaning, which help explain the effectiveness of our approach, especially for high-precision detection. We extend our approach from 2-D to 3-D with a tailored algorithm design to handle the heading estimation, and experimental results on twelve public datasets (2-D/3-D, aerial/text/face images) with various base detectors show its superiority.

arxiv情報

著者 Xue Yang,Gefan Zhang,Xiaojiang Yang,Yue Zhou,Wentao Wang,Jin Tang,Tao He,Junchi Yan
発行日 2022-09-22 07:50:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク