Wholly-WOOD: Wholly Leveraging Diversified-quality Labels for Weakly-supervised Oriented Object Detection

要約

コンパクトな回転境界ボックス(Rbox)を使用した視覚オブジェクトの方向を正確に推定することが顕著な需要になり、水平境界ボックス(Hbox)のみを使用する既存のオブジェクト検出パラダイムに挑戦します。
検出器に方向認識を装備するために、監視された回帰/分類モジュールが高度なローテーション注釈のコストで導入されました。
一方、指向性オブジェクトを備えた既存のデータセットには、すでに水平ボックスまたは単一ポイントが注釈が付けられています。
それは魅力的になりますが、より弱いシングルポイントと水平注釈を効果的に利用して、方向のオブジェクト検出器(OOD)を訓練するためにオープンなままです。
私たちは、統一された方法でさまざまなラベル付けフォーム(ポイント、Hbox、Rbox、およびそれらの組み合わせ)を完全に活用できる完全に監視されているOODフレームワークである完全な木材を開発します。
トレーニングにHboxのみを使用することで、当社のWoodは、リモートセンシングやその他の領域でのRboxトレーニングを受けたカウンターパートのパフォーマンスに非常に近いパフォーマンスを実現し、配向オブジェクトの労働集約的な注釈に対する退屈な努力を大幅に削減します。
ソースコードは、https://github.com/visionxlab/whollywood(pytorchベース)およびhttps://github.com/visionxlab/whollywood-jittor(ジッターベース)で入手できます。

要約(オリジナル)

Accurately estimating the orientation of visual objects with compact rotated bounding boxes (RBoxes) has become a prominent demand, which challenges existing object detection paradigms that only use horizontal bounding boxes (HBoxes). To equip the detectors with orientation awareness, supervised regression/classification modules have been introduced at the high cost of rotation annotation. Meanwhile, some existing datasets with oriented objects are already annotated with horizontal boxes or even single points. It becomes attractive yet remains open for effectively utilizing weaker single point and horizontal annotations to train an oriented object detector (OOD). We develop Wholly-WOOD, a weakly-supervised OOD framework, capable of wholly leveraging various labeling forms (Points, HBoxes, RBoxes, and their combination) in a unified fashion. By only using HBox for training, our Wholly-WOOD achieves performance very close to that of the RBox-trained counterpart on remote sensing and other areas, significantly reducing the tedious efforts on labor-intensive annotation for oriented objects. The source codes are available at https://github.com/VisionXLab/whollywood (PyTorch-based) and https://github.com/VisionXLab/whollywood-jittor (Jittor-based).

arxiv情報

著者 Yi Yu,Xue Yang,Yansheng Li,Zhenjun Han,Feipeng Da,Junchi Yan
発行日 2025-02-13 16:34:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク