要約
無人航空機計測におけるインスタンスのセグメンテーションは長年の課題である。水平バウンディングボックスは多くの干渉オブジェクトを導入するため、インスタンス識別には通常、オリエンテッドバウンディングボックス(OBB)が使用される。しかし、「バウンディングボックス内でのセグメンテーション」パラダイムに基づき、OBBを用いた現在のインスタンスセグメンテーション手法は、バウンディングボックスの検出性能に過度に依存している。この問題に対処するため、本稿ではOBBを用いた効率的なインスタンス分割フレームワークであるOBSegを提案する。OBSegは、ボックスプロンプトに基づくセグメンテーション基盤モデル(BSM)、例えばSegment Anything Modelに基づいている。具体的には、OBSegはまずOBBを検出してインスタンスを区別し、粗い位置情報を提供する。次に、細かいセグメンテーションのためにOBBのプロンプトに関連するマスクを予測する。OBBはプロンプトとしてのみ機能するため、OBSegはOBBを用いた現在のインスタンス分割手法のバウンディングボックス検出性能への過度の依存を緩和する。さらに、BSMがOBBプロンプトを扱えるようにするために、新しいOBBプロンプトエンコーダを提案する。OBSegをより軽量化し、軽量蒸留BSMの性能をさらに向上させるために、ガウス平滑化ベースの知識蒸留法を導入する。実験により、複数の公開データセットにおいて、OBSegが現在のインスタンス分割法を凌駕することが実証された。コードはhttps://github.com/zhen6618/OBBInstanceSegmentation。
要約(オリジナル)
Instance segmentation in unmanned aerial vehicle measurement is a long-standing challenge. Since horizontal bounding boxes introduce many interference objects, oriented bounding boxes (OBBs) are usually used for instance identification. However, based on “segmentation within bounding box” paradigm, current instance segmentation methods using OBBs are overly dependent on bounding box detection performance. To tackle this, this paper proposes OBSeg, an efficient instance segmentation framework using OBBs. OBSeg is based on box prompt-based segmentation foundation models (BSMs), e.g., Segment Anything Model. Specifically, OBSeg first detects OBBs to distinguish instances and provide coarse localization information. Then, it predicts OBB prompt-related masks for fine segmentation. Since OBBs only serve as prompts, OBSeg alleviates the over-dependence on bounding box detection performance of current instance segmentation methods using OBBs. In addition, to enable BSMs to handle OBB prompts, we propose a novel OBB prompt encoder. To make OBSeg more lightweight and further improve the performance of lightweight distilled BSMs, a Gaussian smoothing-based knowledge distillation method is introduced. Experiments demonstrate that OBSeg outperforms current instance segmentation methods on multiple public datasets. The code is available at https://github.com/zhen6618/OBBInstanceSegmentation.
arxiv情報
著者 | Zhen Zhou,Junfeng Fan,Yunkai Ma,Sihan Zhao,Fengshui Jing,Min Tan |
発行日 | 2024-09-03 09:16:03+00:00 |
arxivサイト | arxiv_id(pdf) |