An Efficient Instance Segmentation Framework Based on Oriented Bounding Boxes

要約

ロボットビジョン測定における完全に遮蔽されたオブジェクトと密集したオブジェクトのインスタンスのセグメンテーションは、2 つの困難なタスクです。
それらに統一的に対処するために、この論文では、ボックスプロンプトベースのセグメンテーション基盤モデル (BSM) (Segment Anything Model など) を使用する、統一された粗いから細かいまでのインスタンス セグメンテーション フレームワーク CFNet を提案します。
具体的には、CFNet はまず、指向性バウンディング ボックス (OBB) を検出してインスタンスを区別し、大まかな位置情報を提供します。
次に、細かいセグメンテーションのための OBB プロンプト関連のマスクを予測します。
CFNet は、オクルーダー上の部分的なオブジェクト境界のみを含む OBB を使用してインスタンス セグメンテーションを実行して、遮蔽されたオブジェクト インスタンスを予測します。これにより、遮蔽されたオブジェクトを直接予測する際の既存のアモーダル インスタンス セグメンテーション メソッドの困難が克服されます。
さらに、OBB はプロンプトとしてのみ機能するため、CFNet は、高密度オブジェクトに対して OBB を使用する現在のインスタンス セグメンテーション メソッドの境界ボックス検出パフォーマンスへの過度の依存を軽減します。
さらに、BSM が OBB プロンプトを処理できるようにするために、新しい OBB プロンプト エンコーダを提案します。
CFNet をより軽量にするために、CFNet に対して知識の蒸留を実行し、教師モデルの出力にガウス ラベル平滑化手法を導入しました。
実験では、CFNet が産​​業用データセットと公共データセットの両方で現在のインスタンス セグメンテーション手法よりも優れたパフォーマンスを発揮することが実証されています。
コードは https://github.com/zhen6618/OBBInstanceSegmentation で入手できます。

要約(オリジナル)

Instance segmentation for completely occluded objects and dense objects in robot vision measurement are two challenging tasks. To uniformly deal with them, this paper proposes a unified coarse-to-fine instance segmentation framework, CFNet, which uses box prompt-based segmentation foundation models (BSMs), e.g., Segment Anything Model. Specifically, CFNet first detects oriented bounding boxes (OBBs) to distinguish instances and provide coarse localization information. Then, it predicts OBB prompt-related masks for fine segmentation. CFNet performs instance segmentation with OBBs that only contain partial object boundaries on occluders to predict occluded object instances, which overcomes the difficulty of existing amodal instance segmentation methods in directly predicting occluded objects. In addition, since OBBs only serve as prompts, CFNet alleviates the over-dependence on bounding box detection performance of current instance segmentation methods using OBBs for dense objects. Moreover, to enable BSMs to handle OBB prompts, we propose a novel OBB prompt encoder. To make CFNet more lightweight, we perform knowledge distillation on it and introduce a Gaussian label smoothing method for teacher model outputs. Experiments demonstrate that CFNet outperforms current instance segmentation methods on both industrial and public datasets. The code is available at https://github.com/zhen6618/OBBInstanceSegmentation.

arxiv情報

著者 Zhen Zhou,Junfeng Fan,Yunkai Ma,Sihan Zhao,Fengshui Jing,Min Tan
発行日 2024-07-01 15:16:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク