要約
指向性オブジェクト検出(OOD)に対する需要が急速に増加しているため、ポイントアノテーションからOODを学習するための弱く監視された検出器を含む最近の研究は、大きな注目を集めています。
この論文では、この挑戦的なタスク設定をインスタンス間のレイアウトとPoint2Rbox-V2を再考します。
コアには3つの原則があります:1)ガウスのオーバーラップ損失。
オブジェクトを2Dガウス分布として扱い、それらの重複を最小化することにより、各インスタンスの上限を学習します。
2)Voronoi流域損失。
Voronoi Tessellationの流域を介して各インスタンスの下限を学びます。
3)一貫性の損失。
入力画像に関する2つの出力セット間のサイズ/回転の変動とその拡張ビューを学習します。
いくつかの考案された技術によって補足されています。
エッジの損失とコピーパステ、検出器はさらに強化されます。
私たちの最高の知識のために、Point2Rbox-V2は、ポイントスパイブ化されたOODを学習するためのインスタンスの間で空間レイアウトを探索する最初のアプローチです。
私たちのソリューションはエレガントで軽量ですが、特に密集したシーンで競争力のあるパフォーマンスを提供することが期待されています:DOTA/HRSC/FAIR1Mで62.61%/86.15%/34.71%。
コードはhttps://github.com/visionxlab/point2rbox-v2で入手できます。
要約(オリジナル)
With the rapidly increasing demand for oriented object detection (OOD), recent research involving weakly-supervised detectors for learning OOD from point annotations has gained great attention. In this paper, we rethink this challenging task setting with the layout among instances and present Point2RBox-v2. At the core are three principles: 1) Gaussian overlap loss. It learns an upper bound for each instance by treating objects as 2D Gaussian distributions and minimizing their overlap. 2) Voronoi watershed loss. It learns a lower bound for each instance through watershed on Voronoi tessellation. 3) Consistency loss. It learns the size/rotation variation between two output sets with respect to an input image and its augmented view. Supplemented by a few devised techniques, e.g. edge loss and copy-paste, the detector is further enhanced. To our best knowledge, Point2RBox-v2 is the first approach to explore the spatial layout among instances for learning point-supervised OOD. Our solution is elegant and lightweight, yet it is expected to give a competitive performance especially in densely packed scenes: 62.61%/86.15%/34.71% on DOTA/HRSC/FAIR1M. Code is available at https://github.com/VisionXLab/point2rbox-v2.
arxiv情報
著者 | Yi Yu,Botao Ren,Peiyuan Zhang,Mingxin Liu,Junwei Luo,Shaofeng Zhang,Feipeng Da,Junchi Yan,Xue Yang |
発行日 | 2025-02-07 02:23:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google