Completely Occluded and Dense Object Instance Segmentation Using Box Prompt-Based Segmentation Foundation Models

要約

完全にオクルージョンされた高密度のオブジェクト インスタンス セグメンテーション (IS) は、重要かつ困難なタスクです。
現在のアモーダル IS 手法は、遮蔽されたオブジェクトの不可視領域を予測できますが、完全に遮蔽されたオブジェクトを直接予測することは困難です。
密集オブジェクト IS の場合、既存のボックスベースの方法は境界ボックス検出のパフォーマンスに過度に依存しています。
この論文では、ボックス プロンプトベースのセグメンテーション基盤モデル (BSM) に基づいた、完全にオクルージョンされたオブジェクトと密なオブジェクトのための粗いから細かいまでの IS フレームワークである CFNet を提案します。
具体的には、CFNet はまず、指向性バウンディング ボックス (OBB) を検出してインスタンスを区別し、大まかな位置情報を提供します。
次に、細かいセグメンテーションのための OBB プロンプト関連のマスクを予測します。
完全に遮蔽されたオブジェクト インスタンスを予測するために、CFNet はオクルーダーに対して IS を実行し、事前の幾何学的プロパティを利用します。これにより、完全に遮蔽されたオブジェクト インスタンスを直接予測する困難が克服されます。
さらに、BSM に基づいて、CFNet はバウンディング ボックス検出パフォーマンスへの依存を減らし、高密度オブジェクト IS パフォーマンスを向上させます。
さらに、BSM 用の新しい OBB プロンプト エンコーダを提案します。
CFNet をより軽量にするために、CFNet で知識の蒸留を実行し、教師ターゲットに対してガウス平滑法を導入します。
実験結果は、CFNet が産​​業用データセットと公的に利用可能なデータセットの両方で最高のパフォーマンスを達成することを示しています。

要約(オリジナル)

Completely occluded and dense object instance segmentation (IS) is an important and challenging task. Although current amodal IS methods can predict invisible regions of occluded objects, they are difficult to directly predict completely occluded objects. For dense object IS, existing box-based methods are overly dependent on the performance of bounding box detection. In this paper, we propose CFNet, a coarse-to-fine IS framework for completely occluded and dense objects, which is based on box prompt-based segmentation foundation models (BSMs). Specifically, CFNet first detects oriented bounding boxes (OBBs) to distinguish instances and provide coarse localization information. Then, it predicts OBB prompt-related masks for fine segmentation. To predict completely occluded object instances, CFNet performs IS on occluders and utilizes prior geometric properties, which overcomes the difficulty of directly predicting completely occluded object instances. Furthermore, based on BSMs, CFNet reduces the dependence on bounding box detection performance, improving dense object IS performance. Moreover, we propose a novel OBB prompt encoder for BSMs. To make CFNet more lightweight, we perform knowledge distillation on it and introduce a Gaussian smoothing method for teacher targets. Experimental results demonstrate that CFNet achieves the best performance on both industrial and publicly available datasets.

arxiv情報

著者 Zhen Zhou,Junfeng Fan,Yunkai Ma,Sihan Zhao,Fengshui Jing,Min Tan
発行日 2024-01-16 07:33:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク