PointOBB-v3: Expanding Performance Boundaries of Single Point-Supervised Oriented Object Detection

要約

指向性物体検出 (OOD) に対する需要の高まりに伴い、点教師あり OOD に関する最近の研究が大きな関心を集めています。
このペーパーでは、より強力な単一ポイント監視 OOD フレームワークである PointOBB-v3 を提案します。
既存の方法と比較して、追加の事前分布なしで擬似回転ボックスを生成し、エンドツーエンド パラダイムのサポートを組み込んでいます。
PointOBB-v3 は、元のビュー、サイズ変更されたビュー、回転/反転 (rot/flp) ビューという 3 つの独自の画像ビューを統合することによって機能します。
これらのビューに基づいて、スケール拡張モジュールと角度取得モジュールが構築されます。
最初のモジュールでは、オブジェクトのスケールを推定するモデルの機能を向上させるために、スケールに敏感な一貫性 (SSC) 損失とスケールに敏感な特徴融合 (SSFF) モジュールが導入されています。
正確な角度予測を実現するために、2 番目のモジュールでは対称ベースの自己教師あり学習を採用しています。
さらに、検出器ブランチを統合することで疑似ラベル生成プロセスを排除し、高品質の予測に重点を置くインスタンス認識重み付け (IAW) 戦略を導入するエンドツーエンド バージョンを導入します。
DIOR-R、DOTA-v1.0/v1.5/v2.0、FAIR1M、STAR、RSAR データセットに対して広範な実験を実施しました。
これらすべてのデータセットにわたって、私たちの方法は、以前の最先端の方法と比較して、平均 3.56% の精度の向上を達成しました。
コードは https://github.com/ZpyWHU/PointOBB-v3 で入手できます。

要約(オリジナル)

With the growing demand for oriented object detection (OOD), recent studies on point-supervised OOD have attracted significant interest. In this paper, we propose PointOBB-v3, a stronger single point-supervised OOD framework. Compared to existing methods, it generates pseudo rotated boxes without additional priors and incorporates support for the end-to-end paradigm. PointOBB-v3 functions by integrating three unique image views: the original view, a resized view, and a rotated/flipped (rot/flp) view. Based on the views, a scale augmentation module and an angle acquisition module are constructed. In the first module, a Scale-Sensitive Consistency (SSC) loss and a Scale-Sensitive Feature Fusion (SSFF) module are introduced to improve the model’s ability to estimate object scale. To achieve precise angle predictions, the second module employs symmetry-based self-supervised learning. Additionally, we introduce an end-to-end version that eliminates the pseudo-label generation process by integrating a detector branch and introduces an Instance-Aware Weighting (IAW) strategy to focus on high-quality predictions. We conducted extensive experiments on the DIOR-R, DOTA-v1.0/v1.5/v2.0, FAIR1M, STAR, and RSAR datasets. Across all these datasets, our method achieves an average improvement in accuracy of 3.56% in comparison to previous state-of-the-art methods. The code will be available at https://github.com/ZpyWHU/PointOBB-v3.

arxiv情報

著者 Peiyuan Zhang,Junwei Luo,Xue Yang,Yi Yu,Qingyun Li,Yue Zhou,Xiaosong Jia,Xudong Lu,Jingdong Chen,Xiang Li,Junchi Yan,Yansheng Li
発行日 2025-01-23 18:18:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク