Point2RBox: Combine Knowledge from Synthetic Visual Patterns for End-to-end Oriented Object Detection with Single Point Supervision

要約

指向性物体検出 (OOD) の需要が急速に高まる中、水平ボックス (HBox) から回転ボックス (RBox) を学習するための弱教師検出器を含む最近の研究がますます注目を集めています。
このペーパーでは、より困難だがラベル効率の高い設定、つまり単一点教師あり OOD を検討し、Point2RBox と呼ばれるアプローチを紹介します。
具体的には、次の 2 つの原則を活用することを提案します。 1) 合成パターン知識の組み合わせ: 画像上の各ラベル付き点の周囲でサンプリングすることにより、オブジェクトの特徴を既知のボックスを備えた合成視覚パターンに広げ、ボックス回帰の知識を提供します。
2) 変換自己監視: 変換された入力画像 (例: スケーリング/回転) を使用して、出力 RBox が同じ変換に従うようにトレーニングされるため、ネットワークはオブジェクト間の相対的なサイズ/回転を認識できます。
検出器は、周辺の問題に対処するためにいくつかの工夫された技術によってさらに強化されています。
オブジェクトのサイズとしてのアンカー/レイヤーの割り当ては、ポイント監視設定では利用できません。
私たちの知る限りでは、Point2RBox はポイント監視 OOD のための最初のエンドツーエンド ソリューションです。
特に、私たちの手法は軽量パラダイムを使用していますが、DOTA/DIOR/HRSC データセットでポイント教師ありの代替手法の中で競合するパフォーマンス (41.05%/27.62%/80.01%) を達成しています。

要約(オリジナル)

With the rapidly increasing demand for oriented object detection (OOD), recent research involving weakly-supervised detectors for learning rotated box (RBox) from the horizontal box (HBox) has attracted more and more attention. In this paper, we explore a more challenging yet label-efficient setting, namely single point-supervised OOD, and present our approach called Point2RBox. Specifically, we propose to leverage two principles: 1) Synthetic pattern knowledge combination: By sampling around each labeled point on the image, we spread the object feature to synthetic visual patterns with known boxes to provide the knowledge for box regression. 2) Transform self-supervision: With a transformed input image (e.g. scaled/rotated), the output RBoxes are trained to follow the same transformation so that the network can perceive the relative size/rotation between objects. The detector is further enhanced by a few devised techniques to cope with peripheral issues, e.g. the anchor/layer assignment as the size of the object is not available in our point supervision setting. To our best knowledge, Point2RBox is the first end-to-end solution for point-supervised OOD. In particular, our method uses a lightweight paradigm, yet it achieves a competitive performance among point-supervised alternatives, 41.05%/27.62%/80.01% on DOTA/DIOR/HRSC datasets.

arxiv情報

著者 Yi Yu,Xue Yang,Qingyun Li,Feipeng Da,Jifeng Dai,Yu Qiao,Junchi Yan
発行日 2024-03-21 12:43:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク